HANGUL.WIKI

트랜스포머

Transformer

번역 제공
2,617자 · 2026-04-28
목차 (8개 섹션)

트랜스포머

2017년 구글 연구팀이 논문 하나를 발표했다. 제목은 '어텐션이 전부다(Attention Is All You Need)'. 이 여덟 글자가 AI 역사를 바꿨다. ChatGPT, Gemini, Claude—현재 존재하는 거의 모든 대형 AI 모델의 뼈대가 바로 이 논문에서 나온 트랜스포머(Transformer) 아키텍처다.

개요

트랜스포머는 2017년 구글 브레인(Google Brain) 팀이 발표한 신경망 아키텍처로, 자연어 처리(NLP) 분야에서 기존 RNN(순환신경망)과 LSTM의 한계를 돌파하며 AI 연구의 새 시대를 열었다. 핵심 메커니즘은 '셀프 어텐션(Self-Attention)'으로, 입력 시퀀스 내 모든 토큰이 서로의 관계를 동시에 고려할 수 있게 한다.

쉽게 말하면 이렇다: 기존 RNN은 문장을 왼쪽에서 오른쪽으로 순서대로 읽었다. "나는 어제 학교에서 친구를 만났다"라는 문장에서 '만났다'가 누구와 관련 있는지 파악하려면 앞의 모든 단어를 거쳐야 했다. 트랜스포머는 '만났다'가 문장 내 모든 단어와의 관계를 한 번에 계산한다. 빠르고, 병렬화가 가능하며, 장거리 의존성(long-range dependency)을 훨씬 잘 포착한다.

핵심 구조

셀프 어텐션(Self-Attention) 각 토큰이 다른 토큰과의 연관성 점수를 계산하고, 그 점수를 가중치로 삼아 표현을 업데이트한다. "쿼리(Query), 키(Key), 값(Value)"의 세 벡터로 구현되며, 이를 통해 어떤 단어에 얼마나 집중해야 할지를 학습한다.

멀티헤드 어텐션(Multi-Head Attention) 셀프 어텐션을 여러 개 병렬로 실행한다. 각 헤드가 다른 측면(문법적 관계, 의미적 관계, 지시 관계 등)에 특화된다. GPT-3는 96개의 어텐션 헤드를 가진다.

포지셔널 인코딩(Positional Encoding) 트랜스포머는 순서를 모르기 때문에, 단어의 위치 정보를 수학적으로 인코딩해 추가한다.

인코더-디코더 구조 원래 논문의 트랜스포머는 인코더(입력 이해)와 디코더(출력 생성) 두 부분으로 구성됐다. BERT는 인코더만, GPT 계열은 디코더만 사용하는 방향으로 특화됐다.

왜 혁신이었나

이전의 RNN, LSTM 계열은 두 가지 치명적 단점이 있었다.

첫째, 병렬화 불가: 순서대로 처리해야 하기 때문에 GPU를 제대로 활용할 수 없었다. 트랜스포머는 모든 위치를 동시에 처리하므로 현대 GPU의 대규모 병렬 처리 능력을 100% 활용한다.

둘째, 장기 의존성 소실: 문장이 길어질수록 앞 정보를 잃어버리는 문제가 있었다. 어텐션 메커니즘은 아무리 멀리 떨어진 단어라도 직접 관계를 계산할 수 있다.

이 두 가지 혁신으로 트랜스포머는 스케일링이 가능해졌다. 더 큰 데이터, 더 많은 파라미터로 학습할수록 성능이 계속 올라가는 '스케일링 법칙(Scaling Law)'을 따른다는 것이 증명됐고, 이것이 GPT-3, GPT-4, Claude, Gemini 등 거대 언어모델(LLM) 붐의 직접적 원인이다.

2025~2026년 현황: 트랜스포머의 미래

트랜스포머가 압도적 주류이지만, 한계도 명확해졌다.

컨텍스트 길이의 확장: Gemini 3는 100만 토큰, Llama 4 Scout는 무려 1000만 토큰 컨텍스트 윈도우를 지원한다. 기술적으로는 가능해졌지만, 어텐션의 계산량이 시퀀스 길이의 제곱에 비례해 늘어나는 O(n²) 문제가 있다.

대안 아키텍처 등장

  • Mamba(SSM): 선택적 상태공간모델(Selective State Space Model)로, 시퀀스 길이에 선형으로 확장된다. 긴 시퀀스에서 트랜스포머보다 훨씬 효율적이다.
  • 하이브리드 아키텍처: Jamba처럼 트랜스포머 레이어와 Mamba 레이어를 섞은 시도.
  • MoE(Mixture of Experts): DeepSeek-R1(671B 파라미터)이 대표적. 전체 파라미터 중 약 37B만 활성화해 효율을 극대화한다.

2026년 기준으로 생성형 AI를 도입한 기업이 전체의 80%를 넘어섰다는 통계가 나왔다. 트랜스포머는 이 모든 흐름의 기반이며, 아직 패권은 굳건하다. 다만 포스트 트랜스포머 시대의 첫 조짐이 나타나고 있는 것도 사실이다.

국내 현황

네이버 HyperCLOVA X, 카카오 KoGPT, KT Midm 등 국내 LLM들도 모두 트랜스포머 기반이다. 한국어 특성(교착어, 조사 체계)을 반영한 토크나이저 설계가 핵심 차별화 요소로 떠올랐다. 영어 중심으로 설계된 모델을 한국어에 그대로 적용하면 토큰 효율이 크게 떨어진다.

논란

트랜스포머 연구의 상당 부분이 구글, OpenAI, 메타 같은 빅테크에 집중되면서, 기초 연구와 응용 연구 모두 거대 자본 없이는 불가능해지는 구조가 고착화되고 있다. 논문은 공개되지만 실제로 훈련할 수 있는 계산 자원이 없다면 의미가 없다는 비판이 있다.

또한 트랜스포머가 진짜 이해를 하는지, 아니면 통계적 패턴 매칭에 불과한지에 대한 철학적 논쟁도 계속된다.

관련 항목

강화학습 | BERT | GPT | LLM | 어텐션 메커니즘 | Mamba | MoE | AI 안전성 | 멀티모달 AI | 오픈소스 AI

문서 정보

최초 작성
최종 갱신
분량
2,617자 (성인 기준)
분류
AI·기술

HANGUL.WIKI가 정리·작성한 문서입니다. 정확성을 위해 노력하나 오류가 있을 수 있으므로, 중요한 내용은 공식 출처를 통해 확인하시기 바랍니다. 내용의 오류나 정정 요청은 오류·정정 신고로 알려주시면 검토 후 반영합니다.