HANGUL.WIKI

MoE 아키텍처

Mixture of Experts

번역 제공
2,100자 · 2026-04-28
목차 (6개 섹션)

MoE(Mixture of Experts, 전문가 혼합) 아키텍처는 하나의 거대한 신경망 대신, 다수의 전문화된 소형 신경망('전문가')을 조합하여 각 입력에 적합한 전문가만 선택적으로 활성화하는 딥러닝 아키텍처 패러다임이다.

개념과 역사

MoE의 개념은 1991년 Jacobs et al.의 연구에서 처음 제안되었다. 초기에는 서로 다른 데이터 유형에 특화된 전문가 모델들을 게이팅 네트워크로 조합하는 단순한 구조였다. 이후 Shazeer et al.(2017)이 Sparsely-Gated Mixture of Experts를 트랜스포머 언어 모델에 적용하여 현대적 MoE의 기반을 마련하였고, 대형 언어 모델(LLM) 훈련에 MoE를 활용하는 연구가 활발해졌다.

핵심 구조

전문가(Expert): 각 전문가는 일반적으로 Feed-Forward Network(FFN) 레이어로 구성된 소규모 신경망이다. 수십 개에서 수천 개의 전문가가 존재하며, 각각은 특정 유형의 입력 패턴에 특화되도록 훈련된다.

게이팅 네트워크(Gating Network): 입력 토큰을 받아 각 전문가에 대한 확률 또는 점수를 계산하고, 상위 k개의 전문가를 선택하는 라우팅 결정을 내린다. 일반적으로 Softmax 또는 Top-K 선택 메커니즘을 사용한다.

희소 활성화(Sparse Activation): MoE의 가장 큰 특징은 입력마다 전체 전문가 중 일부(Top-K)만 활성화된다는 점이다. 예를 들어 64개의 전문가 중 입력마다 2개만 활성화된다면, 전체 파라미터 수는 방대하지만 실제 연산에 사용되는 파라미터는 제한적이다. 이를 통해 연산 효율성을 높이면서 모델 용량을 극대화할 수 있다.

장점

컴퓨팅 효율성: 동일한 파라미터 수의 Dense 모델 대비, MoE는 훈련 및 추론 시 실제 활성화되는 파라미터가 적어 FLOPs(부동소수점 연산 수)가 감소한다. 즉, 더 큰 용량의 모델을 더 적은 연산 비용으로 훈련할 수 있다.

확장성: MoE는 전문가 수를 늘려 모델 용량을 쉽게 확장할 수 있다. 실제 연산량은 전문가 수보다 활성 전문가 수(Top-K)에 비례하기 때문에, 연산량 증가 없이 전체 파라미터 수를 대폭 늘릴 수 있다.

전문화(Specialization): 각 전문가가 서로 다른 유형의 입력을 처리하도록 자연스럽게 특화되는 경향이 있어, 다양한 도메인 지식을 효율적으로 습득할 수 있다.

주요 과제

부하 균형(Load Balancing): 게이팅 네트워크가 특정 전문가에만 집중적으로 라우팅하는 현상('전문가 붕괴')이 발생할 수 있다. 이를 방지하기 위해 보조 손실 함수(Auxiliary Loss)나 노이즈 추가(Noisy Top-K Gating) 기법을 사용한다.

통신 오버헤드: 분산 훈련 환경에서 전문가들이 여러 GPU에 분산되어 있을 경우, 토큰 라우팅을 위한 All-to-All 통신 비용이 증가한다.

훈련 불안정성: 게이팅 네트워크와 전문가 네트워크를 함께 훈련할 때 안정성 문제가 발생하기 쉽다.

주요 모델 사례

Switch Transformer(Google, 2021): Top-1 라우팅(전문가 1개만 선택)을 사용하여 훈련 안정성을 높인 MoE 모델로, 1조(1T) 파라미터 이상의 대규모 모델 훈련이 가능함을 입증하였다.

Mixtral 8x7B(Mistral AI, 2023): 8개의 전문가 중 각 토큰마다 2개를 선택하는 구조로, 활성 파라미터 기준으로 7B 모델 수준의 연산량으로 70B 모델에 근접하는 성능을 달성하였다.

GPT-4(추정): OpenAI는 공식 확인하지 않았으나, 여러 연구자들은 GPT-4가 MoE 아키텍처를 채용했을 것으로 추정한다.

Gemini 1.5(Google): MoE 기반 아키텍처를 공식 채택하여 효율성과 성능을 동시에 향상시켰다.

현황 및 전망

MoE 아키텍처는 대형 언어 모델 시대의 핵심 기술 중 하나로 자리잡았다. 동일 연산 비용 대비 더 큰 모델 용량을 활용할 수 있어, 효율적인 LLM 훈련의 핵심 패러다임이 되고 있다. 라우팅 알고리즘 개선, 부하 균형 최적화, 추론 효율화 등 다양한 연구가 활발히 진행 중이다.

문서 정보

최초 작성
최종 갱신
분량
2,100자 (성인 기준)
분류
기술

HANGUL.WIKI가 정리·작성한 문서입니다. 정확성을 위해 노력하나 오류가 있을 수 있으므로, 중요한 내용은 공식 출처를 통해 확인하시기 바랍니다. 내용의 오류나 정정 요청은 오류·정정 신고로 알려주시면 검토 후 반영합니다.