MoE 아키텍처

MoE(Mixture of Experts, 전문가 혼합) 아키텍처는 하나의 거대한 신경망 대신, 다수의 전문화된 소형 신경망('전문가')을 조합하여 각 입력에 적합한 전문가만 선택적으로 활성화하는 딥러닝 아키텍처 패러다임이다.

개념과 역사

MoE의 개념은 1991년 Jacobs et al.의 연구에서 처음 제안되었다. 초기에는 서로 다른 데이터 유형에 특화된 전문가 모델들을 게이팅 네트워크로 조합하는 단순한 구조였다. 이후 Shazeer et al.(2017)이 Sparsely-Gated Mixture of Experts를 트랜스포머 언어 모델에 적용하여 현대적 MoE의 기반을 마련하였고, 대형 언어 모델(LLM) 훈련에 MoE를 활용하는 연구가 활발해졌다.

핵심 구조

전문가(Expert): 각 전문가는 일반적으로 Feed-Forward Network(FFN) 레이어로 구성된 소규모 신경망이다. 수십 개에서 수천 개의 전문가가 존재하며, 각각은 특정 유형의 입력 패턴에 특화되도록 훈련된다.

게이팅 네트워크(Gating Network): 입력 토큰을 받아 각 전문가에 대한 확률 또는 점수를 계산하고, 상위 k개의 전문가를 선택하는 라우팅 결정을 내린다. 일반적으로 Softmax 또는 Top-K 선택 메커니즘을 사용한다.

희소 활성화(Sparse Activation): MoE의 가장 큰 특징은 입력마다 전체 전문가 중 일부(Top-K)만 활성화된다는 점이다. 예를 들어 64개의 전문가 중 입력마다 2개만 활성화된다면, 전체 파라미터 수는 방대하지만 실제 연산에 사용되는 파라미터는 제한적이다. 이를 통해 연산 효율성을 높이면서 모델 용량을 극대화할 수 있다.

장점

컴퓨팅 효율성: 동일한 파라미터 수의 Dense 모델 대비, MoE는 훈련 및 추론 시 실제 활성화되는 파라미터가 적어 FLOPs(부동소수점 연산 수)가 감소한다. 즉, 더 큰 용량의 모델을 더 적은 연산 비용으로 훈련할 수 있다.

확장성: MoE는 전문가 수를 늘려 모델 용량을 쉽게 확장할 수 있다. 실제 연산량은 전문가 수보다 활성 전문가 수(Top-K)에 비례하기 때문에, 연산량 증가 없이 전체 파라미터 수를 대폭 늘릴 수 있다.

전문화(Specialization): 각 전문가가 서로 다른 유형의 입력을 처리하도록 자연스럽게 특화되는 경향이 있어, 다양한 도메인 지식을 효율적으로 습득할 수 있다.

주요 과제

부하 균형(Load Balancing): 게이팅 네트워크가 특정 전문가에만 집중적으로 라우팅하는 현상('전문가 붕괴')이 발생할 수 있다. 이를 방지하기 위해 보조 손실 함수(Auxiliary Loss)나 노이즈 추가(Noisy Top-K Gating) 기법을 사용한다.

통신 오버헤드: 분산 훈련 환경에서 전문가들이 여러 GPU에 분산되어 있을 경우, 토큰 라우팅을 위한 All-to-All 통신 비용이 증가한다.

훈련 불안정성: 게이팅 네트워크와 전문가 네트워크를 함께 훈련할 때 안정성 문제가 발생하기 쉽다.

주요 모델 사례

Switch Transformer(Google, 2021): Top-1 라우팅(전문가 1개만 선택)을 사용하여 훈련 안정성을 높인 MoE 모델로, 1조(1T) 파라미터 이상의 대규모 모델 훈련이 가능함을 입증하였다.

Mixtral 8x7B(Mistral AI, 2023): 8개의 전문가 중 각 토큰마다 2개를 선택하는 구조로, 활성 파라미터 기준으로 7B 모델 수준의 연산량으로 70B 모델에 근접하는 성능을 달성하였다.

GPT-4(추정): OpenAI는 공식 확인하지 않았으나, 여러 연구자들은 GPT-4가 MoE 아키텍처를 채용했을 것으로 추정한다.

Gemini 1.5(Google): MoE 기반 아키텍처를 공식 채택하여 효율성과 성능을 동시에 향상시켰다.

현황 및 전망

MoE 아키텍처는 대형 언어 모델 시대의 핵심 기술 중 하나로 자리잡았다. 동일 연산 비용 대비 더 큰 모델 용량을 활용할 수 있어, 효율적인 LLM 훈련의 핵심 패러다임이 되고 있다. 라우팅 알고리즘 개선, 부하 균형 최적화, 추론 효율화 등 다양한 연구가 활발히 진행 중이다.

MoE(Mixture of Experts)는 "전문가들의 혼합"이라는 뜻으로, 여러 개의 작은 AI를 팀처럼 구성해서 각자 잘하는 일을 나눠 맡게 하는 AI 구조예요.

쉬운 비유

학교에서 국어, 수학, 과학, 영어 각각의 선생님이 계신 것처럼, MoE도 각 분야를 담당하는 '전문가(Expert)'들이 있어요. 질문이 들어오면, 어떤 전문가에게 가야 할지 결정하는 '담당자(게이팅 네트워크)'가 가장 적합한 전문가를 골라서 보내요. 수학 문제면 수학 선생님, 글쓰기면 국어 선생님에게 보내는 것처럼요!

왜 효율적인가요?

보통 AI는 모든 계산 장치가 항상 켜져 있어요. 하지만 MoE는 각 질문에 맞는 전문가만 켜지고, 나머지는 쉬어요. 예를 들어 64명의 전문가 중 질문마다 딱 2명만 일하는 거예요.

이게 왜 좋냐면, 전체 AI의 능력(파라미터 수)은 크면서도 실제로 사용하는 전기(연산량)는 적게 들어요. 더 똑똑한 AI를 더 적은 비용으로 만들 수 있는 거죠! 이것을 '희소 활성화(Sparse Activation)'라고 불러요.

어떻게 전문가를 고르나요?

게이팅 네트워크라는 부분이 입력된 정보를 보고 각 전문가가 얼마나 적합한지 점수를 매겨요. 그리고 점수가 높은 상위 K명의 전문가에게만 일을 맡겨요. 보통 K는 2 정도로 설정해요. 이걸 Top-K 라우팅이라고 해요.

실제 사용 예시

Mixtral 8x7B: 8명의 전문가 중 매번 2명이 일해요. 훨씬 큰 AI처럼 성능을 내면서도 비용은 적게 들어요. 같은 크기의 일반 AI보다 훨씬 좋은 성능을 냈어요.
Switch Transformer (Google): 전문가 1명만 선택하는 방식으로 1조 개 이상의 파라미터를 가진 AI를 훈련시키는 데 성공했어요.
GPT-4: 공식 발표는 없지만 많은 전문가들이 MoE 방식을 사용했을 거라고 추측해요.
Google Gemini 1.5: 공식적으로 MoE를 사용한다고 밝혔어요.

어려운 점은 없나요?

부하 균형 문제: 어떤 전문가에게 보낼지 결정하는 게 생각보다 까다로워요. 모든 질문이 한두 명의 인기 전문가에게만 몰리면, 나머지 전문가들은 아무 일도 안 하게 되거든요. 이걸 방지하기 위해 여러 가지 기술적인 방법을 사용해요.

통신 문제: 전문가들이 여러 컴퓨터에 분산되어 있으면, 데이터를 주고받는 통신 비용이 늘어나요.

MoE는 AI를 더 크고 스마트하게 만들면서도 비용은 줄일 수 있는 중요한 기술로, 요즘 가장 주목받는 AI 기술 중 하나예요! 앞으로 더 많은 AI 모델들이 MoE 방식을 채택할 것으로 예상돼요.

MoE(전문가 혼합)는 여러 작은 AI가 팀을 이루어 일하는 방식이에요!

어떻게 작동하나요?

학교에 여러 선생님이 계신 것처럼, MoE AI에도 여러 '전문가' AI가 있어요. 국어 문제는 국어 전문가에게, 수학 문제는 수학 전문가에게 보내는 거예요! 질문이 들어오면 '게이팅 네트워크'라는 담당자가 "이건 어떤 전문가가 잘할 수 있을까?"를 결정해요. 예를 들어 그림에 대한 질문이면 그림 전문가에게, 역사에 대한 질문이면 역사 전문가에게 보내는 거예요.

왜 좋은가요?

모든 전문가가 항상 일하지 않아도 돼요. 필요한 전문가만 깨어나서 일하고, 나머지는 쉬어요. 예를 들어 64명의 전문가가 있어도 질문 하나당 2명만 일해요. 덕분에 아주 똑똑한 AI를 더 적은 전기로 만들 수 있어요! 마치 큰 팀에서 필요한 사람만 불러서 일하는 것과 같아요. 덕분에 훨씬 더 큰 AI를 더 저렴하게 만들 수 있어요.

얼마나 많은 전문가가 있나요?

어떤 AI는 8명의 전문가, 어떤 AI는 수백 명의 전문가를 가지고 있어요. 전문가가 많을수록 더 다양한 종류의 질문에 잘 답할 수 있어요. 하지만 한 번에 일하는 전문가는 항상 소수예요! Mixtral이라는 AI는 8명의 전문가 중 2명만 사용해서, 훨씬 큰 AI처럼 잘 대답할 수 있어요.

어디에 쓰이나요?

요즘 가장 똑똑한 AI들인 GPT-4나 Gemini 같은 프로그램들이 이 방식을 사용해요. MoE 덕분에 AI가 더 스마트해지고, 더 적은 비용으로 만들 수 있게 됐어요. 앞으로도 더 많은 AI들이 이 방식을 사용할 거예요! MoE는 AI를 발전시키는 중요한 기술 중 하나로, 과학자들이 계속 연구하고 있어요.

MoE (Mixture of Experts) Architecture

The MoE (Mixture of Experts) architecture represents a paradigm in deep learning that contrasts with monolithic large neural networks by integrating numerous specialized smaller neural networks, termed 'experts,' to selectively activate only those best suited for each input during processing.

Concept and History

The foundational concept of MoE was first introduced by Jacobs et al. in 1991. Initially, this involved a simple structure where specialized models tailored to different data types were combined through gating networks. Significant advancements came later with Shazeer et al.'s (2017) integration of Sparsely-Gated MoE into transformer language models, paving the way for extensive research into leveraging MoE for large language model (LLM) training.

Core Structure

Experts (전문가): Each expert typically consists of a small feed-forward neural network (FFN) layer. These networks range from dozens to thousands in number, each meticulously trained to specialize in specific input pattern types.

Gating Network (게이팅 네트워크): This component processes input tokens to compute probabilities or scores for each expert and makes routing decisions to select the top k experts, commonly employing mechanisms like Softmax or Top-K selection.

Sparse Activation (희소 활성화): A hallmark of MoE is its sparse activation feature, where only a subset of all experts (typically the top k) are activated per input. For instance, out of 64 experts, only two might be activated per input, significantly reducing computational demands despite the large overall parameter count, thus enhancing efficiency and scalability.

Advantages

Computational Efficiency: Compared to dense models with similar parameter counts, MoE reduces FLOPs (floating-point operations) during training and inference by activating fewer parameters selectively, enabling larger models to be trained with reduced computational costs.

Scalability: MoE facilitates easy expansion of model capacity by increasing the number of experts, with computational demands scaling more with the number of activated experts rather than the total expert count, allowing substantial parameter expansion without proportional computational increase.

Specialization: Experts naturally specialize in handling different types of inputs, facilitating efficient acquisition of diverse domain knowledge.

Key Challenges

Load Balancing: An issue arises where gating networks may disproportionately route to certain experts ('expert collapse'), mitigated through auxiliary loss functions or noisy gating mechanisms.

Communication Overhead: In distributed training environments, routing token information across multiple GPUs incurs increased communication costs.

Training Instability: Concurrent training of gating and expert networks often leads to stability challenges.

Notable Model Implementations

Switch Transformer (Google, 2021): Utilizes Top-1 routing to enhance training stability, demonstrating the feasibility of training models with over 1 trillion parameters efficiently.

Mixtral 8x7B (Mistral AI, 2023): Employs a structure selecting two experts per token from eight, achieving performance akin to a 70B parameter model using only approximately 7B active parameters.

GPT-4 (Estimated): Although officially unconfirmed by OpenAI, many researchers speculate that GPT-4 incorporates MoE architecture.

Gemini 1.5 (Google): Officially adopts MoE architecture to enhance both efficiency and performance.

Current Status and Future Outlook

MoE has emerged as a pivotal technology in the era of large language models, enabling more efficient utilization of computational resources for larger model capacities within the same cost constraints. Ongoing research focuses on refining routing algorithms, optimizing load balancing, and improving inference efficiency, positioning MoE as a cornerstone for future advancements in deep learning architectures.

English version not yet available.