HANGUL.WIKI

LLM (대규모 언어 모델)

Large Language Model (LLM)

번역 제공
3,306자 · 2026-04-28
목차 (10개 섹션)

LLM (대규모 언어 모델)

ChatGPT를 처음 써본 순간을 기억하는가? "이게 진짜로 이해하고 대답하는 건가?" 라는 당혹감. 그 당혹감의 정체가 바로 대규모 언어 모델(Large Language Model, LLM)이다. 인간의 언어를 수십억 개 매개변수로 통계적으로 모델링한 이 기술은, 단순한 자동완성을 넘어서 추론, 창작, 코딩, 분석을 가능하게 했다. 그리고 그 과정에서 AI 산업과 인류의 미래에 대한 전례 없는 논쟁을 불러일으켰다.

1. 기원: 트랜스포머의 등장

LLM의 역사는 2017년으로 거슬러 올라간다. 구글 브레인 팀이 발표한 논문 "Attention Is All You Need"가 시발점이다. 이 논문이 제안한 트랜스포머(Transformer) 아키텍처는 이전의 RNN, LSTM 방식을 대체하며 언어 모델링의 패러다임을 바꿨다.

핵심 아이디어는 '어텐션(Attention)' 메커니즘이다. 문장을 처리할 때 모든 단어의 관계를 동시에 고려한다. "나는 [사과]를 먹었는데 [그것]이 맛있었다"에서 AI가 '그것'이 '사과'를 가리킨다는 것을 정확히 파악하는 능력이 어텐션에서 나온다.

2. 스케일링 법칙: 클수록 좋은가

2020년 OpenAI가 발표한 논문 "Scaling Laws for Neural Language Models"은 업계를 흔들었다. 결론은 단순했다: "모델 크기(파라미터), 데이터 양, 컴퓨팅을 늘리면 성능이 예측 가능하게 향상된다."

이른바 스케일링 법칙(Scaling Laws)의 발견이다. 이 발견은 "더 크게 만들면 더 잘한다"는 군비경쟁을 촉발했다. GPT-3는 1750억 파라미터, GPT-4는 추정 1조 파라미터 이상으로 알려져 있다 (OpenAI는 공식 확인 안 함).

단, 2022년에는 DeepMind의 Chinchilla 논문이 "무조건 파라미터만 늘리는 게 아니라 데이터와 균형이 중요하다"는 수정을 제시했다.

3. 주요 LLM 계보

GPT 시리즈 (OpenAI): GPT-1(2018)→GPT-2(2019)→GPT-3(2020)→GPT-4(2023) 순으로 발전. GPT-3가 처음으로 "wow"를 이끌어냈고, ChatGPT(GPT-3.5 기반)가 대중화의 기폭제가 됐다.

Claude 시리즈 (Anthropic): 안전성 중심, 긴 컨텍스트가 강점. Constitutional AI 방법론 적용.

Gemini (Google DeepMind): 멀티모달 기반 설계, 구글 생태계 통합.

LLaMA (Meta): 오픈소스 공개로 연구 커뮤니티에 지각변동. LLaMA 2, LLaMA 3 순으로 업그레이드.

DeepSeek (DeepSeek-AI): 중국 스타트업. 저비용 고효율 훈련으로 2025년 충격을 줬다.

Mistral (Mistral AI): 프랑스 스타트업. 소형 고성능 모델로 유럽 AI의 자존심.

4. 어떻게 학습하나: 사전훈련과 파인튜닝

LLM 훈련은 크게 두 단계다.

1단계 — 사전훈련(Pre-training): 인터넷의 방대한 텍스트를 읽으며 "다음 단어가 뭘까?"를 수십억 번 맞추는 과정. 이 과정에서 언어의 문법, 사실 지식, 추론 패턴이 파라미터 안에 압축된다. GPT-4는 이 단계에서 약 45조 토큰을 학습했다고 추정된다.

2단계 — 파인튜닝(Fine-tuning): 사전훈련된 모델을 특정 목적에 맞게 조정. ChatGPT처럼 "대화형 어시스턴트"로 만들려면 사람이 선호하는 답변을 기반으로 한 RLHF(강화학습을 통한 인간 피드백)를 적용한다.

5. 환각(Hallucination): LLM의 구조적 한계

LLM은 없는 사실을 있는 것처럼 자신 있게 말한다. 이를 환각(Hallucination)이라 부른다.

구조적 이유가 있다. LLM은 "다음 토큰을 예측하는 기계"다. 실제로 정보를 검색하거나 사실 여부를 확인하는 것이 아니라, 훈련 데이터의 패턴을 바탕으로 가장 그럴듯한 텍스트를 생성한다. 존재하지 않는 논문 인용, 틀린 날짜, 가짜 사실이 여기서 나온다.

해결책으로는 RAG(Retrieval-Augmented Generation, 검색 강화 생성), 도구 사용(웹 검색), Chain-of-Thought 프롬프팅 등이 연구·적용되고 있다.

6. 이머전트 어빌리티: 예측 못한 능력들

스케일을 키우다 보면 예상치 못한 능력들이 갑자기 나타난다. 이를 이머전트 어빌리티(Emergent Abilities, 창발적 능력)라 부른다.

GPT-3 이전에는 AI가 수학 문제를 풀거나, 코드를 디버깅하거나, 유추 추론을 할 수 있을 거라 예상하지 못했다. 그런데 모델이 충분히 커지자 이 능력들이 갑자기 나타났다. 마치 물이 99도에서 끓지 않다가 100도에서 갑자기 끓기 시작하는 것처럼.

이 현상은 흥분과 동시에 두려움을 낳는다. "다음에는 어떤 능력이 갑자기 나타날지 우리도 모른다"는 것이다.

7. AI 안전성과 정렬 문제

LLM이 강력해질수록 안전성 문제도 커진다. 핵심은 정렬(Alignment) 문제다 — AI의 목표가 인간의 가치와 얼마나 일치하는가.

Anthropic은 Constitutional AI, OpenAI는 RLHF, DeepMind는 RLAM 등 각자 정렬 방법론을 연구한다. 하지만 아직 완벽한 해법은 없다. LLM은 여전히 조작적 프롬프트(jailbreak)에 취약하고, 의도치 않은 해로운 출력을 낼 수 있다.

8. 경제적 충격과 미래

LLM은 이미 화이트칼라 직업 시장에 충격을 주고 있다. 법률 문서 검토, 코드 작성, 고객 서비스, 콘텐츠 제작 분야에서 LLM이 인간을 대체하거나 보조하기 시작했다.

골드만삭스는 2023년 보고서에서 "생성형 AI가 미국 일자리의 25%에 영향을 미칠 수 있다"고 전망했다. 새로운 직업(AI 프롬프트 엔지니어, AI 윤리 감사관 등)도 생겨나고 있지만, 적응 속도보다 변화 속도가 더 빠르다는 우려도 있다.

AGI(인공일반지능)까지의 거리에 대해서는 전문가들 사이에서도 의견이 갈린다. "LLM만으로는 AGI에 도달할 수 없다"부터 "이미 AGI의 초기 형태가 등장했다"까지, 스펙트럼이 넓다.

관련 항목

Claude (Anthropic AI 모델), Gemini (Google AI 모델), DeepSeek (중국 AI 스타트업), 트랜스포머, GPT-4, 강화학습, AI 안전성, RAG, 환각(AI), AGI, 오픈소스 AI, 스케일링 법칙

문서 정보

최초 작성
최종 갱신
분량
3,306자 (성인 기준)
분류
과학·기술

HANGUL.WIKI가 정리·작성한 문서입니다. 정확성을 위해 노력하나 오류가 있을 수 있으므로, 중요한 내용은 공식 출처를 통해 확인하시기 바랍니다. 내용의 오류나 정정 요청은 오류·정정 신고로 알려주시면 검토 후 반영합니다.