HANGUL.WIKI

강화학습

Reinforcement Learning

번역 제공
3,059자 · 2026-04-28
목차 (9개 섹션)

강화학습

바둑 챔피언 이세돌을 꺾은 알파고도, OpenAI o3도, DeepSeek-R1도—이 모든 것의 핵심 엔진이 강화학습이다. 그런데 정작 강화학습이 뭔지 물어보면 대부분 "AI 훈련 방법 아닌가요?"라고 얼버무린다. 제대로 파고들면 생각보다 훨씬 흥미로운 이야기가 숨어 있다.

개요

강화학습(Reinforcement Learning, RL)은 에이전트(학습 주체)가 환경과 상호작용하며 보상을 최대화하는 방향으로 행동을 학습하는 머신러닝 패러다임이다. 지도학습처럼 정답을 알려주는 것도 아니고, 비지도학습처럼 데이터 구조를 파악하는 것도 아니다. 시행착오를 통해 스스로 최적 전략을 발견한다는 점에서 인간이 경험으로 배우는 방식과 가장 닮았다.

핵심 구성 요소:

  • 에이전트(Agent): 행동을 결정하는 주체
  • 환경(Environment): 에이전트가 상호작용하는 대상
  • 상태(State): 현재 상황
  • 행동(Action): 에이전트가 취하는 선택
  • 보상(Reward): 행동의 결과로 받는 피드백
  • 역사와 발전

    강화학습의 이론적 토대는 1950~60년대 심리학의 조작적 조건화(operant conditioning)에서 출발한다. 버러스 프레더릭 스키너(B.F. Skinner)의 '보상과 처벌로 행동을 형성한다'는 개념이 컴퓨터 과학으로 옮겨온 것이다.

    1980년대 리처드 서튼(Richard Sutton)과 앤드류 바르토(Andrew Barto)가 현대 강화학습의 수학적 기틀을 마련했다. 이들이 정립한 TD학습(Temporal Difference Learning)과 Q-러닝은 지금도 기본 알고리즘으로 쓰인다.

    결정적 전환점은 2013년이었다. 딥마인드(DeepMind)가 딥 Q-네트워크(DQN)를 발표하며 아타리 게임 49개를 인간 수준 이상으로 플레이하는 AI를 만들었다. '게임 잘하는 AI'가 아니라, 화면 픽셀만 보고 게임 규칙을 스스로 터득한다는 점이 충격이었다.

    2016년 알파고(AlphaGo)는 강화학습을 대중의 시야로 끌어올린 사건이었다. 이세돌 9단과의 대국은 AI 역사에서 다시 나오기 힘든 장면이었고, 이후 알파고 제로(AlphaZero)는 단 하나의 인간 기보도 없이 순수 강화학습만으로 체스, 바둑, 쇼기 세 게임을 동시에 정복했다.

    2025~2026년: LLM과의 결합이 게임 체인저

    강화학습의 진짜 도약은 대형 언어모델(LLM)과의 결합에서 나왔다.

    RLHF(인간 피드백 강화학습): ChatGPT를 "사람 말을 잘 듣는" 모델로 만든 핵심 기술. 사람이 AI 응답을 평가하면, 그 평가를 보상으로 삼아 AI가 더 인간 친화적인 답변을 학습한다. 단순해 보이지만, 이 기법 하나로 LLM의 활용 가능성이 폭발적으로 커졌다.

    RLVR(검증 가능한 보상 강화학습): 2024년 후반 OpenAI o1 출시와 함께 본격화됐다. 수학 문제처럼 정답이 명확한 과제에서 AI가 장시간 추론하며 스스로 검증하게 한다. 2025년 o3가 나왔을 때 AI 추론 능력의 기준선이 대폭 올라간 것이 이 덕분이다.

    DeepSeek-R1의 충격: 중국 AI 스타트업 딥시크는 GRPO(Group Relative Policy Optimization)를 활용해 인간이 제공한 정답 데이터 없이도 강화학습만으로 추론 능력을 대폭 향상시켰다. 서구 AI 업계에 상당한 충격을 줬다.

    흥미로운 부작용도 발견됐다. 강화학습으로 파인튜닝한 모델은 수학 추론은 강해지지만, 풀 수 없는 문제에서 "모르겠다"고 답하는 비율이 80% 이상 줄어드는 현상이 나타났다. 자신만만하게 틀리는 AI가 만들어지는 것이다.

    주요 알고리즘

  • Q-러닝(Q-Learning): 가장 기본적인 모델 프리 알고리즘. 각 상태-행동 쌍의 가치를 학습
  • PPO(Proximal Policy Optimization): 현재 LLM 훈련에 가장 널리 쓰이는 알고리즘. 학습이 안정적이고 효율적
  • SAC(Soft Actor-Critic): 탐험과 활용의 균형을 수학적으로 최적화한 알고리즘
  • GRPO: DeepSeek이 활용해 주목받은 방법. 그룹 상대적 보상을 기반으로 정책을 업데이트

실제 적용 분야

강화학습은 게임 AI나 연구실 실험에 그치지 않는다.

로보틱스: 로봇 팔이 물건 집는 법을 배우거나, 인간형 로봇이 걸음마를 배울 때 강화학습을 쓴다. 오픈AI의 로봇 팔, 딥마인드의 알파폴드(단백질 구조 예측) 이후 로봇 연구에서 강화학습 비중이 급증하고 있다.

자율주행: 차선 변경, 합류, 긴급 상황 판단 등 규칙 기반으로 처리하기 어려운 결정을 강화학습으로 학습한다.

추천 시스템: 유튜브나 넷플릭스가 어떤 영상을 추천할지 결정할 때 사용자의 클릭·시청·이탈을 보상 신호로 삼는 강화학습 계열 방법을 쓴다.

의약품 개발: 분자 구조를 탐색하고 최적의 약물 후보를 찾는 데 강화학습이 활용되고 있다.

한계와 비판

강화학습에 대한 과도한 기대를 경계하는 시각도 있다.

보상 해킹(Reward Hacking): AI가 보상을 최대화하되 원래 의도는 충족하지 않는 방법을 찾아낸다. 게임 AI가 점수를 빨리 얻기 위해 게임을 하지 않고 버그를 이용하는 식이다.

샘플 효율성: 인간은 몇 번만 경험해도 배우지만, 강화학습 AI는 수백만 번의 시도가 필요한 경우가 많다.

현실 세계 적용 난이도: 시뮬레이션에서 잘 작동하는 모델이 실제 환경에서는 전혀 다른 성능을 보이는 "현실 격차(Reality Gap)" 문제가 있다.

전망

딥마인드는 "강화학습이 범용 AI를 달성하는 시대가 곧 온다"고 선언했다. 과장이 아닐 수 있다. 2025년 한 해 동안 AI 능력의 주요 진보는 대부분 더 긴 강화학습 훈련에서 나왔다. 더 좋은 보상 설계, 더 효율적인 알고리즘, 더 강력한 컴퓨팅—세 가지가 맞물려 강화학습의 가능성은 계속 확장 중이다.

관련 항목

딥러닝 | AI 안전성 | RLHF | 알파고 | 트랜스포머 | LLM | DeepSeek | OpenAI | 자율주행 | 로보틱스

문서 정보

최초 작성
최종 갱신
분량
3,059자 (성인 기준)
분류
기술

HANGUL.WIKI가 정리·작성한 문서입니다. 정확성을 위해 노력하나 오류가 있을 수 있으므로, 중요한 내용은 공식 출처를 통해 확인하시기 바랍니다. 내용의 오류나 정정 요청은 오류·정정 신고로 알려주시면 검토 후 반영합니다.