HANGUL.WIKI

스케일링 법칙

Scaling Laws

금융·건강·법률 등 민감 주제입니다. 중요한 결정 전 전문가 확인을 권장합니다. 고지·면책 안내
번역 제공
2,259자 · 2026-04-29
목차 (8개 섹션)

스케일링 법칙

"더 크면 더 똑똑하다." AI 업계를 지배해온 이 한 문장이, 수조 원의 투자를 이끌고 챗GPT를 탄생시켰다. 그리고 지금도 흔들리지 않는 신념처럼 군림하고 있다. 스케일링 법칙(Scaling Laws)은 AI 역사상 가장 강력한 경험적 법칙이자, 동시에 가장 뜨겁게 논쟁 중인 개념이다.

개요

스케일링 법칙이란 AI 모델의 성능이 모델 크기(파라미터 수), 학습 데이터 양, 투입 연산량(Compute)과 어떤 수학적 관계를 갖는지를 설명하는 경험적 법칙이다. 단순히 말하면 "이 세 가지를 늘리면 성능이 예측 가능한 방식으로 좋아진다"는 것이다. 이 법칙의 위력은 실험 없이도 미리 결과를 예측할 수 있게 해준다는 점이다. 수천억 원짜리 GPU 클러스터를 구축하기 전에 작은 실험으로 성능을 예측할 수 있다면? 그것이 스케일링 법칙의 실용적 가치다.

Kaplan et al. — 1세대 스케일링 법칙 (2020)

2020년 OpenAI 연구팀(Jared Kaplan 등)이 발표한 논문 "Scaling Laws for Neural Language Models"는 AI 분야에 지각변동을 일으켰다. 핵심 발견은 다음과 같다:

모델 성능(손실값)은 파라미터 수, 데이터 크기, 연산량 각각에 대해 멱함수(power-law) 관계를 따른다. 즉 어느 하나를 10배 늘리면 성능이 예측 가능한 비율로 향상된다.

카플란 팀의 제안: 고정된 연산 예산이 있다면, 데이터보다 모델 크기를 더 공격적으로 키워야 한다. 연산량 10배 증가 시 모델 크기 5.5배, 데이터 1.8배가 최적이라고 봤다. 이 법칙이 GPT-3(1750억 파라미터) 탄생의 이론적 배경이 됐다.

Chinchilla — 2세대 스케일링 법칙 (2022)

2022년 3월 DeepMind가 발표한 "Training Compute-Optimal Large Language Models" 논문은 기존 통념을 뒤집었다. DeepMind는 700억 파라미터의 Chinchilla 모델이 2800억 파라미터의 Gopher를 같은 연산량으로 뛰어넘는다는 것을 보였다.

핵심 인사이트: 카플란 법칙은 모델을 너무 크게 만들고 데이터를 너무 적게 쓴다. 최적 비율은 파라미터 1개당 약 20개의 토큰이다. 즉 700억 파라미터 모델은 약 1.4조 토큰으로 훈련해야 한다.

이 발견은 업계 전체의 전략을 바꿨다. 무작정 모델을 키우는 대신 데이터 확보에 집중하게 만들었다.

2025~2026년: 스케일링 법칙의 진화

Chinchilla 이후에도 스케일링 법칙은 계속 진화하고 있다. 2025년 4월 알리바바 Qwen3-0.6B는 파라미터 대비 토큰 비율이 60,000:1에 달했다(6억 파라미터, 36조 토큰). 2026년 4월 Liquid AI의 LFM2.5-350M은 이를 더 극단으로 밀어붙여 80,000:1(3.5억 파라미터, 28조 토큰)을 달성했다. 이는 Chinchilla의 20:1 공식을 수천 배 넘어선 수치로, 추론(Inference) 비용과 강화학습(RL)이 포함된 새로운 스케일링 패러다임의 등장을 예고한다.

스케일링 법칙의 한계와 논쟁

스케일링 법칙이 영원히 지속될 것인가? 이 질문을 두고 업계가 둘로 갈린다.

'''낙관론''': 연산량, 데이터, 모델 크기 어느 것도 아직 한계에 도달하지 않았다. 에너지와 자본만 있으면 계속 성능을 올릴 수 있다. OpenAI, Anthropic, Google 등은 이 믿음 하에 수조 원을 투자하고 있다.

'''회의론''': 인터넷의 텍스트 데이터는 유한하다. 고품질 학습 데이터 고갈 문제가 현실화되고 있다. 단순히 크기를 키우는 방식으로는 진정한 이해나 추론 능력이 생기지 않는다는 주장도 있다.

또한 스케일링 법칙은 사전 학습(pre-training) 성능에 관한 것이며, 파인튜닝이나 RLHF(인간 피드백 강화학습) 이후의 실제 유용성과는 다를 수 있다.

향후 전망

스케일링 법칙의 다음 챕터는 '추론 시 연산(Test-Time Compute)'이 될 것이라는 전망이 유력하다. OpenAI의 o1, o3 시리즈처럼 답변 생성 시에도 더 많은 연산을 투입하면 성능이 올라간다는 것이 확인됐다. 이제 스케일링은 단순히 모델 크기 이야기가 아니라, 연산 자원을 어떻게 배분하느냐의 문제로 확장되고 있다.

관련 항목

대형 언어 모델 | GPT | Chinchilla | 강화학습 | 사전 학습 | 딥러닝 | OpenAI | DeepMind | 파라미터 | 토큰

문서 정보

최초 작성
최종 갱신
분량
2,259자 (성인 기준)
분류
AI·기술

HANGUL.WIKI가 정리·작성한 문서입니다. 정확성을 위해 노력하나 오류가 있을 수 있으므로, 중요한 내용은 공식 출처를 통해 확인하시기 바랍니다. 내용의 오류나 정정 요청은 오류·정정 신고로 알려주시면 검토 후 반영합니다.