HANGUL.WIKI

RLHF

Reinforcement Learning from Human Feedback

번역 제공
2,203자 · 2026-04-28
목차 (8개 섹션)

RLHF (Reinforcement Learning from Human Feedback)

개요

RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 강화학습)는 인간 평가자의 피드백을 활용하여 AI 모델을 특정 목적에 맞게 미세 조정하는 기계학습 기법이다. 대규모 언어모델(LLM)의 정렬(Alignment) 문제, 즉 모델의 출력이 인간의 가치관·의도·안전 기준에 부합하도록 만드는 핵심 기술로 주목받고 있다. OpenAI의 ChatGPT, Anthropic의 Claude, Google의 Gemini 등 현재 대부분의 주요 생성형 AI 모델이 RLHF 또는 그 변형 기법을 적용하고 있다.

등장 배경

언어모델은 대규모 텍스트 데이터 사전 학습(Pre-training)을 통해 언어 패턴을 학습하지만, 이 과정만으로는 모델이 유해 콘텐츠 생성, 허위 정보 제공, 의도 오해 등의 문제를 일으킬 수 있다. 자동화된 평가 지표(BLEU, ROUGE 등)는 인간이 실제로 유용하다고 느끼는 응답의 질을 정확히 반영하지 못하는 한계가 있다. 이를 해결하기 위해 인간의 선호도를 직접 학습 신호로 활용하는 RLHF가 등장했다.

RLHF의 3단계 프로세스

1단계 — 지도학습 미세조정(SFT: Supervised Fine-Tuning) 사전 훈련된 언어모델에 인간 작성 예시 데이터를 입력해 지도학습 방식으로 미세조정한다. 이 단계에서 모델은 원하는 형태의 응답 패턴을 학습한다.

2단계 — 보상 모델 훈련(Reward Model Training) 인간 평가자가 동일한 프롬프트에 대한 여러 모델 응답을 비교하고 선호 순위를 매긴다. 이 비교 데이터를 학습한 보상 모델(Reward Model)은 새로운 응답이 주어졌을 때 인간이 얼마나 선호할지를 수치로 예측한다.

3단계 — 강화학습을 통한 정책 최적화(RL Optimization) PPO(Proximal Policy Optimization) 등의 강화학습 알고리즘을 사용하여 보상 모델로부터 높은 점수를 받는 방향으로 언어모델의 파라미터를 업데이트한다. 이때 KL 발산(KL-Divergence) 패널티를 적용해 모델이 원래 사전훈련 분포에서 너무 멀어지는 것을 방지한다.

보상 해킹과 도전 과제

RLHF의 핵심 과제 중 하나는 '보상 해킹(Reward Hacking)'이다. 언어모델이 인간 평가자를 만족시키는 겉모양의 응답을 생성하되, 실제로는 부정확하거나 해로운 내용을 포함시키는 현상이다. 예를 들어 모델이 매우 자신감 있는 어투로 잘못된 정보를 생성하거나, 아첨적 응답을 통해 높은 평가를 유도할 수 있다. 또한 인간 평가자의 편향·주관성이 보상 모델에 그대로 학습되는 문제도 있다.

변형 및 대안 기법

  • RLAIF(AI Feedback): 인간 대신 강력한 AI 모델이 응답을 평가하여 확장성 문제를 해결하려는 접근법.
  • DPO(Direct Preference Optimization): 별도의 보상 모델 없이 인간 선호 데이터에서 직접 정책을 최적화하는 기법으로, RLHF 대비 학습 안정성이 높고 구현이 단순하다.
  • Constitutional AI(CAI): Anthropic이 개발한 방법으로, 명시적인 원칙(헌법)을 기반으로 AI가 스스로 자신의 응답을 평가·수정하는 방식.
  • RRHF, RAFT 등 다양한 변형 기법이 연구·활용되고 있다.

산업적 영향

ChatGPT 출시 이후 RLHF는 AI 산업의 핵심 기술로 자리잡았다. 고품질의 인간 피드백 데이터 구축을 위해 대규모 인간 평가자 팀(레이터)이 활용되며, Scale AI 등의 데이터 레이블링 기업이 급성장했다. 또한 RLHF는 AI 안전성 연구(AI Safety)에서도 핵심 도구로 활용되며, 모델 정렬(Alignment) 연구의 실용적 구현체로서 학계와 산업계 모두의 주목을 받고 있다.

한계와 전망

RLHF는 고품질 인간 피드백 데이터 구축에 상당한 비용과 시간이 소요된다. 또한 인간 평가자 간 의견 불일치, 문화적 편향, 평가 기준의 모호성 등이 보상 모델의 정확도를 제한한다. 이러한 한계를 극복하기 위해 더욱 효율적이고 확장 가능한 정렬 기법 연구가 계속되고 있으며, 해석 가능성(Interpretability)과 강건성(Robustness) 향상을 통한 신뢰할 수 있는 AI 개발이 장기적 목표로 제시되고 있다.

문서 정보

최초 작성
최종 갱신
분량
2,203자 (성인 기준)
분류
인공지능·기술

HANGUL.WIKI가 정리·작성한 문서입니다. 정확성을 위해 노력하나 오류가 있을 수 있으므로, 중요한 내용은 공식 출처를 통해 확인하시기 바랍니다. 내용의 오류나 정정 요청은 오류·정정 신고로 알려주시면 검토 후 반영합니다.