HANGUL.WIKI

RAG

Retrieval-Augmented Generation

번역 제공
3,008자 · 2026-04-28
목차 (9개 섹션)

RAG (Retrieval-Augmented Generation)

LLM(대형 언어 모델)의 가장 큰 단점 두 가지: 학습 데이터 시점 이후의 정보를 모른다는 것, 그리고 그럴싸하게 거짓말을 한다는 것(할루시네이션). RAG는 이 두 문제를 동시에 공략하는 아키텍처로, 2020년 메타 AI 연구팀이 공개한 이후 AI 프로덕트 구현의 사실상 표준이 됐다.

---

1. RAG의 핵심 아이디어

RAG의 원리는 단순하다. AI에게 질문이 들어오면, 먼저 관련 문서를 검색(Retrieve)한 뒤, 그 문서를 맥락으로 제공해 답변을 생성(Generate)한다. 마치 오픈북 시험과 같다. 아무것도 없이 기억에만 의존하는 게 아니라, 교재를 참조하면서 답을 쓰는 것이다.

전통적 LLM 방식과의 차이: 전통 LLM: 학습 데이터에서 '기억'해 답변. 최신 정보 없음, 거짓 기억 생성 가능. RAG: 질문마다 외부 지식베이스에서 검색 후 답변. 최신 정보 반영 가능, 출처 제시 가능.

---

2. RAG의 3단계 파이프라인

1단계: 인덱싱(Indexing) 문서를 청크(Chunk·조각)로 나누고 각각을 벡터(숫자 배열)로 변환(임베딩)해 벡터 데이터베이스에 저장한다. 이 과정이 RAG의 '도서관 구축'에 해당한다.

주요 벡터 DB: Pinecone, Weaviate, Chroma, Qdrant, pgvector(PostgreSQL 확장).

2단계: 검색(Retrieval) 사용자 질문도 벡터로 변환해 데이터베이스에서 유사도(코사인 유사도·ANN 등)가 높은 청크를 찾는다. 이게 핵심적인 '검색' 단계다.

검색 방식: Dense Retrieval: 임베딩 벡터 기반. 의미적 유사성 반영. Sparse Retrieval: BM25 등 키워드 기반. 정확한 용어 매칭에 강함. Hybrid: 두 방식 결합. 현업에서 가장 많이 씀.

3단계: 생성(Generation) 검색된 문서 청크를 LLM의 프롬프트에 삽입하고, LLM이 해당 맥락을 바탕으로 최종 답변을 생성한다.

---

3. 왜 중요한가: 엔터프라이즈 AI의 핵심

기업이 AI 챗봇을 만든다고 생각해보자. 일반 GPT-4에게 "우리 회사 반품 정책이 뭐야?"라고 물으면, GPT-4는 그 정보를 모른다. 그렇다고 수천 페이지 사내 문서로 LLM을 파인튜닝(Fine-tuning)하자니 비용이 수억 원이다.

RAG를 쓰면: 사내 문서를 벡터 DB에 넣고, 질문이 들어올 때마다 관련 문서를 검색해 GPT-4에게 제공한다. 파인튜닝 없이도 사내 지식을 반영할 수 있고, 문서가 업데이트돼도 벡터 DB만 갱신하면 된다.

이 구조가 현재 엔터프라이즈 AI 구현의 80% 이상을 차지한다고 해도 과언이 아니다. 법률 AI, 의료 AI, 금융 AI 모두 RAG 기반이다.

---

4. RAG의 핵심 도전 과제

청킹 전략: 문서를 어떻게 나누느냐에 따라 검색 품질이 달라진다. 너무 작으면 맥락이 끊기고, 너무 크면 노이즈가 많아진다. 문서 구조를 이해한 '시맨틱 청킹'이 발전하고 있다.

임베딩 모델 선택: OpenAI의 text-embedding-3, Cohere의 embed-v3, 오픈소스 BGE 등 선택지가 많다. 도메인 특화 임베딩이 일반 임베딩보다 성능이 좋은 경우가 많다.

컨텍스트 윈도우 한계: 검색된 청크가 너무 많으면 LLM의 컨텍스트 윈도우를 초과한다. '잃어버린 중간(Lost in the Middle)' 현상: LLM은 프롬프트 앞뒤는 잘 기억하지만 중간 부분 정보는 잘 활용하지 못한다.

검색 품질: 관련 문서를 얼마나 잘 찾느냐가 전체 시스템 성능의 병목이다. 쿼리 재작성, HyDE(가상 문서 임베딩) 등 다양한 검색 개선 기법이 연구 중이다.

---

5. Advanced RAG 기법들

기본 RAG에서 발전한 기법들:

HyDE(Hypothetical Document Embedding): 질문으로 가상의 이상적 답변 문서를 먼저 생성한 뒤, 그 문서와 유사한 실제 문서를 검색. 질문-문서 임베딩 차이를 줄이는 효과.

RAPTOR: 문서를 계층적으로 요약해 다양한 추상화 레벨에서 검색. 긴 문서의 전체 맥락 파악에 유리.

GraphRAG: 지식 그래프(Knowledge Graph)와 결합. 엔티티 간 관계를 활용해 복잡한 멀티홉 추론 가능. 마이크로소프트가 2024년 오픈소스로 공개.

Agentic RAG: AI 에이전트가 검색 전략 자체를 동적으로 결정. 여러 번 검색하고 결과를 평가해 최적 답변 도출.

---

6. 주요 프레임워크와 도구

LangChain: RAG 파이프라인 구축을 위한 가장 유명한 파이썬 프레임워크. 다양한 벡터 DB·LLM과 연동 가능.

LlamaIndex: 데이터 인덱싱과 검색에 특화된 프레임워크. LangChain보다 인덱싱 단계가 더 세밀하게 설정 가능.

Haystack: 독일 딥셋이 만든 RAG 프레임워크. 엔터프라이즈 환경에 강점.

RAGAs: RAG 시스템의 품질을 자동 평가하는 프레임워크. 충실성(Faithfulness), 답변 관련성, 컨텍스트 관련성 등 지표 제공.

---

7. 한계와 RAG를 넘어서

RAG는 만능이 아니다.

파인튜닝과의 비교: 특정 도메인의 지식과 말투를 완전히 내재화하려면 파인튜닝이 낫다. RAG는 '참조'는 하지만 '학습'은 아니다.

실시간 데이터: 스트리밍 데이터나 매우 빠르게 변하는 정보에 대응하기 어렵다.

멀티모달: 이미지·영상·오디오가 포함된 문서 처리는 추가 복잡성이 있다.

Long Context LLM 등장: Gemini 1.5 Pro(100만 토큰), Claude의 200K 토큰 같은 초장문 컨텍스트 모델이 등장하면서, "그냥 전체 문서를 다 넣으면 되지 않냐"는 논의도 나오고 있다. 하지만 비용과 지연 시간 측면에서 RAG가 여전히 유리한 경우가 많다.

---

관련 항목

LLM | 벡터 데이터베이스 | 임베딩 | LangChain | LlamaIndex | 할루시네이션 | 파인튜닝 | GraphRAG | 엔터프라이즈 AI | 프롬프트 엔지니어링

문서 정보

최초 작성
최종 갱신
분량
3,008자 (성인 기준)
분류
기술

HANGUL.WIKI가 정리·작성한 문서입니다. 정확성을 위해 노력하나 오류가 있을 수 있으므로, 중요한 내용은 공식 출처를 통해 확인하시기 바랍니다. 내용의 오류나 정정 요청은 오류·정정 신고로 알려주시면 검토 후 반영합니다.