구글 TPU (텐서처리장치)
Google TPU (Tensor Processing Unit)
1,727자 · 2026-04-23
목차 (7개 섹션)
구글이 직접 설계한 반도체가 엔비디아 GPU의 왕좌를 흔들고 있다.
개요
TPU(Tensor Processing Unit, 텐서처리장치)는 구글이 자체 개발한 AI 전용 반도체다. 2016년 1세대를 내놓은 이후 2026년 8세대까지 출시하며 AI 훈련·추론 분야에서 독보적인 성능을 선보이고 있다. 이름에서 알 수 있듯 머신러닝의 핵심 연산인 행렬곱(텐서 연산)을 극도로 최적화한 것이 특징이다.탄생 배경
2013년 구글은 내부 AI 서비스 수요가 폭발적으로 증가하면서 기존 CPU·GPU만으로는 감당이 안 된다는 결론에 이르렀다. 당시 구글 검색에 딥러닝을 전면 적용하면 전 세계 데이터센터 비용이 두 배로 뛸 것이라는 분석이 나왔고, 이를 해결하기 위해 AI 전용 칩 설계 프로젝트가 시작됐다. 불과 15개월 만에 1세대 TPU를 개발했다는 사실은 구글 내부에서도 전설적인 일화로 꼽힌다.세대별 진화
1세대(2016)는 추론 전용으로 설계돼 구글 데이터센터에 조용히 배치됐다. 2세대(2017)부터 훈련까지 지원하기 시작했고, 구글은 이를 클라우드에 공개했다(Cloud TPU). 3세대(2018)는 액체 냉각 시스템을 도입하며 성능을 끌어올렸다. 4세대(2021)부터는 '포드(Pod)' 단위로 연결해 수천 개의 칩을 하나처럼 묶는 대규모 병렬 훈련이 가능해졌다. 5세대 TPU v5e·v5p(2023)는 제미나이 훈련에 투입됐고, 2026년 공개된 8세대는 전작 대비 전성비(성능 대비 전력) 2배, 훈련 성능 3배를 달성했다. 구글은 8세대를 '에이전트 시대 인프라 재설계'의 핵심으로 내세우고 있다.작동 원리: 왜 GPU보다 빠른가
GPU는 범용 병렬 연산기로, 그래픽·AI·물리 시뮬레이션 등 다양한 목적에 사용된다. 반면 TPU는 행렬 곱셈만을 위한 회로(시스토릭 어레이, Systolic Array)를 칩 대부분을 차지할 정도로 넣었다. 트랜스포머 기반 LLM 연산의 70~80%가 행렬 곱셈이기 때문에, 특화 설계로 압도적인 효율을 낸다. 메모리 대역폭도 HBM을 탑재해 데이터 병목을 최소화한다.엔비디아 독주에 대한 대항마
AI 반도체 시장에서 엔비디아의 점유율은 80%를 넘는다. 그러나 구글 TPU, 아마존 트레이니움(Trainium), 메타 MTIA, 애플 뉴럴엔진 등 빅테크들이 자체 칩 개발에 적극 투자하면서 '엔비디아 의존도 낮추기' 경쟁이 벌어지고 있다. 구글은 TPU를 내부 훈련에 쓰면서 엔비디아에 수십억 달러를 절감하고 있다고 알려져 있다. 다만 소프트웨어 생태계(CUDA)의 압도적인 우세 때문에 외부 연구자들이 TPU로 갈아타기는 여전히 어렵다는 한계가 있다.한국에 미치는 영향
TPU는 SK하이닉스와 삼성전자가 공급하는 HBM 메모리를 탑재한다. 즉, 구글이 TPU를 더 많이 만들수록 한국 반도체 수요도 증가하는 구조다. 또한 구글 클라우드 TPU는 국내 스타트업과 연구기관이 저렴하게 대형 모델을 훈련할 수 있는 경로로 활용되고 있어 한국 AI 생태계와도 긴밀하게 연결돼 있다.전망
구글은 TPU를 '구글 클라우드의 경쟁 우위'로 적극 마케팅하고 있다. 에이전틱 AI 시대에는 추론 비용이 폭발적으로 늘어나기 때문에, 전성비 높은 전용 칩의 중요성은 더욱 커질 전망이다. 장기적으로 오픈소스 ML 프레임워크(JAX, PyTorch)가 TPU를 더 잘 지원하게 되면 CUDA 벽이 낮아져 구글 TPU 생태계가 빠르게 확장될 가능성이 있다.문서 정보
- 최초 작성
- 최종 갱신
- 분량
- 1,727자 (성인 기준)
- 분류
- IT·반도체
HANGUL.WIKI가 정리·작성한 문서입니다. 정확성을 위해 노력하나 오류가 있을 수 있으므로, 중요한 내용은 공식 출처를 통해 확인하시기 바랍니다. 내용의 오류나 정정 요청은 오류·정정 신고로 알려주시면 검토 후 반영합니다.