ChatGPT를 처음 써본 순간을 기억하는가? "이게 진짜로 이해하고 대답하는 건가?" 라는 당혹감. 그 당혹감의 정체가 바로 대규모 언어 모델(Large Language Model, LLM)이다. 인간의 언어를 수십억 개 매개변수로 통계적으로 모델링한 이 기술은, 단순한 자동완성을 넘어서 추론, 창작, 코딩, 분석을 가능하게 했다. 그리고 그 과정에서 AI 산업과 인류의 미래에 대한 전례 없는 논쟁을 불러일으켰다.
1. 기원: 트랜스포머의 등장
LLM의 역사는 2017년으로 거슬러 올라간다. 구글 브레인 팀이 발표한 논문 "Attention Is All You Need"가 시발점이다. 이 논문이 제안한 트랜스포머(Transformer) 아키텍처는 이전의 RNN, LSTM 방식을 대체하며 언어 모델링의 패러다임을 바꿨다.
핵심 아이디어는 '어텐션(Attention)' 메커니즘이다. 문장을 처리할 때 모든 단어의 관계를 동시에 고려한다. "나는 [사과]를 먹었는데 [그것]이 맛있었다"에서 AI가 '그것'이 '사과'를 가리킨다는 것을 정확히 파악하는 능력이 어텐션에서 나온다.
2. 스케일링 법칙: 클수록 좋은가
2020년 OpenAI가 발표한 논문 "Scaling Laws for Neural Language Models"은 업계를 흔들었다. 결론은 단순했다: "모델 크기(파라미터), 데이터 양, 컴퓨팅을 늘리면 성능이 예측 가능하게 향상된다."
이른바 스케일링 법칙(Scaling Laws)의 발견이다. 이 발견은 "더 크게 만들면 더 잘한다"는 군비경쟁을 촉발했다. GPT-3는 1750억 파라미터, GPT-4는 추정 1조 파라미터 이상으로 알려져 있다 (OpenAI는 공식 확인 안 함).
단, 2022년에는 DeepMind의 Chinchilla 논문이 "무조건 파라미터만 늘리는 게 아니라 데이터와 균형이 중요하다"는 수정을 제시했다.
3. 주요 LLM 계보
GPT 시리즈 (OpenAI): GPT-1(2018)→GPT-2(2019)→GPT-3(2020)→GPT-4(2023) 순으로 발전. GPT-3가 처음으로 "wow"를 이끌어냈고, ChatGPT(GPT-3.5 기반)가 대중화의 기폭제가 됐다.
Claude 시리즈 (Anthropic): 안전성 중심, 긴 컨텍스트가 강점. Constitutional AI 방법론 적용.
Gemini (Google DeepMind): 멀티모달 기반 설계, 구글 생태계 통합.
LLaMA (Meta): 오픈소스 공개로 연구 커뮤니티에 지각변동. LLaMA 2, LLaMA 3 순으로 업그레이드.
DeepSeek (DeepSeek-AI): 중국 스타트업. 저비용 고효율 훈련으로 2025년 충격을 줬다.
Mistral (Mistral AI): 프랑스 스타트업. 소형 고성능 모델로 유럽 AI의 자존심.
4. 어떻게 학습하나: 사전훈련과 파인튜닝
LLM 훈련은 크게 두 단계다.
1단계 — 사전훈련(Pre-training): 인터넷의 방대한 텍스트를 읽으며 "다음 단어가 뭘까?"를 수십억 번 맞추는 과정. 이 과정에서 언어의 문법, 사실 지식, 추론 패턴이 파라미터 안에 압축된다. GPT-4는 이 단계에서 약 45조 토큰을 학습했다고 추정된다.
2단계 — 파인튜닝(Fine-tuning): 사전훈련된 모델을 특정 목적에 맞게 조정. ChatGPT처럼 "대화형 어시스턴트"로 만들려면 사람이 선호하는 답변을 기반으로 한 RLHF(강화학습을 통한 인간 피드백)를 적용한다.
5. 환각(Hallucination): LLM의 구조적 한계
LLM은 없는 사실을 있는 것처럼 자신 있게 말한다. 이를 환각(Hallucination)이라 부른다.
구조적 이유가 있다. LLM은 "다음 토큰을 예측하는 기계"다. 실제로 정보를 검색하거나 사실 여부를 확인하는 것이 아니라, 훈련 데이터의 패턴을 바탕으로 가장 그럴듯한 텍스트를 생성한다. 존재하지 않는 논문 인용, 틀린 날짜, 가짜 사실이 여기서 나온다.
해결책으로는 RAG(Retrieval-Augmented Generation, 검색 강화 생성), 도구 사용(웹 검색), Chain-of-Thought 프롬프팅 등이 연구·적용되고 있다.
6. 이머전트 어빌리티: 예측 못한 능력들
스케일을 키우다 보면 예상치 못한 능력들이 갑자기 나타난다. 이를 이머전트 어빌리티(Emergent Abilities, 창발적 능력)라 부른다.
GPT-3 이전에는 AI가 수학 문제를 풀거나, 코드를 디버깅하거나, 유추 추론을 할 수 있을 거라 예상하지 못했다. 그런데 모델이 충분히 커지자 이 능력들이 갑자기 나타났다. 마치 물이 99도에서 끓지 않다가 100도에서 갑자기 끓기 시작하는 것처럼.
이 현상은 흥분과 동시에 두려움을 낳는다. "다음에는 어떤 능력이 갑자기 나타날지 우리도 모른다"는 것이다.
7. AI 안전성과 정렬 문제
LLM이 강력해질수록 안전성 문제도 커진다. 핵심은 정렬(Alignment) 문제다 — AI의 목표가 인간의 가치와 얼마나 일치하는가.
Anthropic은 Constitutional AI, OpenAI는 RLHF, DeepMind는 RLAM 등 각자 정렬 방법론을 연구한다. 하지만 아직 완벽한 해법은 없다. LLM은 여전히 조작적 프롬프트(jailbreak)에 취약하고, 의도치 않은 해로운 출력을 낼 수 있다.
8. 경제적 충격과 미래
LLM은 이미 화이트칼라 직업 시장에 충격을 주고 있다. 법률 문서 검토, 코드 작성, 고객 서비스, 콘텐츠 제작 분야에서 LLM이 인간을 대체하거나 보조하기 시작했다.
골드만삭스는 2023년 보고서에서 "생성형 AI가 미국 일자리의 25%에 영향을 미칠 수 있다"고 전망했다. 새로운 직업(AI 프롬프트 엔지니어, AI 윤리 감사관 등)도 생겨나고 있지만, 적응 속도보다 변화 속도가 더 빠르다는 우려도 있다.
AGI(인공일반지능)까지의 거리에 대해서는 전문가들 사이에서도 의견이 갈린다. "LLM만으로는 AGI에 도달할 수 없다"부터 "이미 AGI의 초기 형태가 등장했다"까지, 스펙트럼이 넓다.
LLM은 영어로 Large Language Model, 우리말로는 "대규모 언어 모델"이에요. 쉽게 말하면, 말을 아주 잘 이해하고 대답하는 AI 프로그램이에요.
AI는 어떻게 말을 배울까요?
AI는 사람처럼 학교에 가지 않아요. 대신 인터넷에 있는 엄청나게 많은 글을 읽어요. 책 수백만 권, 위키피디아 전체, 여러 언어 글들... 그걸 읽으면서 "다음에 어떤 말이 올까?"를 계속 맞추는 게임을 해요. 그렇게 언어를 배운답니다. 마치 우리가 책을 많이 읽으면 글 실력이 는 것처럼요.
ChatGPT, Claude도 LLM이에요
ChatGPT, Claude, Gemini 모두 LLM이에요. 마치 같은 레고 부품으로 다른 모양을 만든 것처럼, 같은 LLM 기술로 만들어졌지만 각자 조금씩 달라요. 어떤 건 더 안전하고, 어떤 건 더 빠르고, 어떤 건 사진도 볼 수 있어요.
트랜스포머가 핵심이에요
LLM 안에는 "트랜스포머"라는 특별한 기술이 들어있어요. 이 기술은 문장에서 어떤 단어들이 서로 연결되는지 이해하는 능력이에요. "그것이 맛있었다"에서 '그것'이 앞에 나온 '사과'를 가리킨다는 걸 AI가 알아채는 것도 이 기술 덕분이에요.
AI가 틀릴 때도 있어요
AI는 때로 없는 사실을 만들어내기도 해요. 마치 읽은 이야기들을 섞어서 새로운 이야기를 만드는 것처럼요. 그래서 AI가 말한 것이 항상 맞는지 확인해봐야 해요.
더 알아보기
AI가 점점 더 똑똑해지면 어떤 일을 도와줄 수 있을까요? 의사가 병을 빨리 찾아내도록 돕거나, 과학자들이 새로운 약을 개발하는 걸 도울 수 있대요. 여러분이 자라면 AI와 함께 어떤 멋진 일을 할 수 있을까요? 정말 신기하고 기대되죠?
Large Language Models (LLMs): Transforming Language and Society
What is LLM?
Recall your first encounter with ChatGPT: a sense of wonder mingled with bewilderment—"Is this truly understanding and responding?" This bewilderment encapsulates the essence of Large Language Models (LLMs). These sophisticated systems, statistically modeling human language across billions of parameters, transcend mere autocomplete functionalities. They empower AI with capabilities akin to reasoning, creativity, coding, and analysis, igniting unprecedented debates surrounding the future of AI and humanity.
1. Genesis: The Rise of Transformers
The journey of LLMs traces back to 2017 with Google Brain's groundbreaking paper, "Attention Is All You Need." This seminal work introduced the Transformer architecture, revolutionizing language modeling by replacing conventional RNN and LSTM approaches with a revolutionary "Attention" mechanism.
At its core, Attention enables simultaneous consideration of relationships between all words within a sentence. Consider an example: "I ate an [apple], and it was delicious." An LLM equipped with Attention accurately discerns that "[it]" refers to "[apple]," showcasing this capability.
2. Scaling Laws: Does Size Always Equal Superiority?
OpenAI's 2020 paper, "Scaling Laws for Neural Language Models," sent ripples through the industry. The core finding was straightforward: amplifying model size (parameters), training data volume, and computational power predictably enhances performance. This phenomenon, termed Scaling Laws, fueled an arms race in LLM development, with models like GPT-3 boasting 175 billion parameters and GPT-4 rumored to exceed 1 trillion parameters (though official confirmation remains elusive).
However, DeepMind's 2022 "Chinchilla" paper introduced a crucial caveat: while scaling remains crucial, achieving optimal performance necessitates a delicate balance with data quality and curation, challenging the simplistic notion of "bigger is always better."
3. Key LLM Lineages
GPT Series (OpenAI): Evolving from GPT-1 (2018) through GPT-2 (2019), GPT-3 (2020), and now GPT-4 (2023), this series marked significant leaps, with GPT-3 igniting widespread excitement and ChatGPT (based on GPT-3.5) catalyzing mainstream adoption.
Claude Series (Anthropic): Prioritizing safety, these models excel in handling lengthy contexts and incorporate Constitutional AI principles for ethical alignment.
Gemini (Google DeepMind): Designed with a multimodal approach, integrating seamlessly with Google's ecosystem, Gemini showcases the potential of LLMs beyond textual processing.
LLaMA (Meta): Open-sourced LLaMA disrupted the research landscape, empowering a broader community of developers and researchers with access to powerful LLM capabilities. Subsequent iterations like LLaMA 2 and LLaMA 3 further refined its performance.
DeepSeek (DeepSeek-AI): This Chinese startup emerged as a cost-effective powerhouse, demonstrating impressive capabilities despite limited resources, poised to disrupt the LLM landscape by 2025.
Mistral (Mistral AI): Representing European innovation, Mistral AI delivers high-performance LLMs optimized for European needs and standards.
4. Training the Mind: Pre-training and Fine-tuning
LLM training unfolds in two distinct phases:
Pre-training: This foundational stage involves immersing the model in vast textual datasets, essentially predicting the next word billions of times. During this process, the model learns intricate patterns of language grammar, factual knowledge, and reasoning strategies, compressing them into its parameters. Estimates suggest GPT-4 underwent pre-training on approximately 45 trillion tokens.
Fine-tuning: Building upon the pre-trained foundation, this stage refines the model for specific applications. For instance, transforming ChatGPT into a conversational assistant involves leveraging Reinforcement Learning with Human Feedback (RLHF) to align its responses with human preferences.
5. Hallucination: A Structural Limitation
LLMs, despite their sophistication, exhibit a tendency to generate plausible yet factually incorrect information—a phenomenon termed Hallucination. This arises from their inherent design as predictive text generators, relying on learned patterns rather than real-time fact-checking.
Examples include fabricated citations, erroneous dates, or fabricated facts. Addressing this challenge involves techniques like Retrieval-Augmented Generation (RAG), integrating external knowledge sources, and employing prompting strategies that guide the model towards more accurate outputs.
6. Emergent Abilities: Unexpected Capabilities
As LLMs scale upwards, unforeseen abilities suddenly emerge—labeled Emergent Abilities.
Prior to GPT-3, it was unimaginable for AI to solve mathematical problems, debug code, or engage in complex reasoning. However, these capabilities materialized unexpectedly as models grew larger, akin to water abruptly boiling at 100 degrees Celsius.
While thrilling, this unpredictability breeds both excitement and apprehension—raising profound questions about the trajectory and potential dangers of unchecked LLM development.
7. Safety and Alignment: A Paramount Concern
With increasing power comes heightened safety concerns surrounding LLMs. At the heart of this issue lies the Alignment Problem: ensuring the AI's objectives harmonize with human values.
Companies like Anthropic prioritize Constitutional AI principles, OpenAI employs RLHF for ethical fine-tuning, while DeepMind explores RLAM (Reinforcement Learning with Adversarial Matching) to address this critical challenge. However, a definitive solution remains elusive, leaving LLMs vulnerable to manipulation through carefully crafted prompts ("jailbreaking") and the potential for generating harmful outputs unintentionally.
8. Economic Disruption and the Future Landscape
LLMs are already reshaping the white-collar job market, automating tasks such as legal document review, code writing, customer service, and content creation. Goldman Sachs predicts generative AI could impact up to 25% of US jobs, highlighting both opportunities (emerging roles like AI prompt engineers and AI ethics auditors) and anxieties regarding adaptation speeds lagging behind technological advancements.
The path towards Artificial General Intelligence (AGI) remains shrouded in debate. While some posit LLMs represent significant strides towards AGI, others argue that further breakthroughs are necessary. The spectrum of opinions spans from LLMs being insufficient for AGI to them already embodying nascent forms of general intelligence.