LLM(대형 언어 모델)의 가장 큰 단점 두 가지: 학습 데이터 시점 이후의 정보를 모른다는 것, 그리고 그럴싸하게 거짓말을 한다는 것(할루시네이션). RAG는 이 두 문제를 동시에 공략하는 아키텍처로, 2020년 메타 AI 연구팀이 공개한 이후 AI 프로덕트 구현의 사실상 표준이 됐다.
---
1. RAG의 핵심 아이디어
RAG의 원리는 단순하다. AI에게 질문이 들어오면, 먼저 관련 문서를 검색(Retrieve)한 뒤, 그 문서를 맥락으로 제공해 답변을 생성(Generate)한다. 마치 오픈북 시험과 같다. 아무것도 없이 기억에만 의존하는 게 아니라, 교재를 참조하면서 답을 쓰는 것이다.
전통적 LLM 방식과의 차이:
전통 LLM: 학습 데이터에서 '기억'해 답변. 최신 정보 없음, 거짓 기억 생성 가능.
RAG: 질문마다 외부 지식베이스에서 검색 후 답변. 최신 정보 반영 가능, 출처 제시 가능.
---
2. RAG의 3단계 파이프라인
1단계: 인덱싱(Indexing)
문서를 청크(Chunk·조각)로 나누고 각각을 벡터(숫자 배열)로 변환(임베딩)해 벡터 데이터베이스에 저장한다. 이 과정이 RAG의 '도서관 구축'에 해당한다.
주요 벡터 DB: Pinecone, Weaviate, Chroma, Qdrant, pgvector(PostgreSQL 확장).
2단계: 검색(Retrieval)
사용자 질문도 벡터로 변환해 데이터베이스에서 유사도(코사인 유사도·ANN 등)가 높은 청크를 찾는다. 이게 핵심적인 '검색' 단계다.
검색 방식:
Dense Retrieval: 임베딩 벡터 기반. 의미적 유사성 반영.
Sparse Retrieval: BM25 등 키워드 기반. 정확한 용어 매칭에 강함.
Hybrid: 두 방식 결합. 현업에서 가장 많이 씀.
3단계: 생성(Generation)
검색된 문서 청크를 LLM의 프롬프트에 삽입하고, LLM이 해당 맥락을 바탕으로 최종 답변을 생성한다.
---
3. 왜 중요한가: 엔터프라이즈 AI의 핵심
기업이 AI 챗봇을 만든다고 생각해보자. 일반 GPT-4에게 "우리 회사 반품 정책이 뭐야?"라고 물으면, GPT-4는 그 정보를 모른다. 그렇다고 수천 페이지 사내 문서로 LLM을 파인튜닝(Fine-tuning)하자니 비용이 수억 원이다.
RAG를 쓰면: 사내 문서를 벡터 DB에 넣고, 질문이 들어올 때마다 관련 문서를 검색해 GPT-4에게 제공한다. 파인튜닝 없이도 사내 지식을 반영할 수 있고, 문서가 업데이트돼도 벡터 DB만 갱신하면 된다.
이 구조가 현재 엔터프라이즈 AI 구현의 80% 이상을 차지한다고 해도 과언이 아니다. 법률 AI, 의료 AI, 금융 AI 모두 RAG 기반이다.
---
4. RAG의 핵심 도전 과제
청킹 전략: 문서를 어떻게 나누느냐에 따라 검색 품질이 달라진다. 너무 작으면 맥락이 끊기고, 너무 크면 노이즈가 많아진다. 문서 구조를 이해한 '시맨틱 청킹'이 발전하고 있다.
임베딩 모델 선택: OpenAI의 text-embedding-3, Cohere의 embed-v3, 오픈소스 BGE 등 선택지가 많다. 도메인 특화 임베딩이 일반 임베딩보다 성능이 좋은 경우가 많다.
컨텍스트 윈도우 한계: 검색된 청크가 너무 많으면 LLM의 컨텍스트 윈도우를 초과한다. '잃어버린 중간(Lost in the Middle)' 현상: LLM은 프롬프트 앞뒤는 잘 기억하지만 중간 부분 정보는 잘 활용하지 못한다.
검색 품질: 관련 문서를 얼마나 잘 찾느냐가 전체 시스템 성능의 병목이다. 쿼리 재작성, HyDE(가상 문서 임베딩) 등 다양한 검색 개선 기법이 연구 중이다.
---
5. Advanced RAG 기법들
기본 RAG에서 발전한 기법들:
HyDE(Hypothetical Document Embedding): 질문으로 가상의 이상적 답변 문서를 먼저 생성한 뒤, 그 문서와 유사한 실제 문서를 검색. 질문-문서 임베딩 차이를 줄이는 효과.
RAPTOR: 문서를 계층적으로 요약해 다양한 추상화 레벨에서 검색. 긴 문서의 전체 맥락 파악에 유리.
GraphRAG: 지식 그래프(Knowledge Graph)와 결합. 엔티티 간 관계를 활용해 복잡한 멀티홉 추론 가능. 마이크로소프트가 2024년 오픈소스로 공개.
Agentic RAG: AI 에이전트가 검색 전략 자체를 동적으로 결정. 여러 번 검색하고 결과를 평가해 최적 답변 도출.
---
6. 주요 프레임워크와 도구
LangChain: RAG 파이프라인 구축을 위한 가장 유명한 파이썬 프레임워크. 다양한 벡터 DB·LLM과 연동 가능.
LlamaIndex: 데이터 인덱싱과 검색에 특화된 프레임워크. LangChain보다 인덱싱 단계가 더 세밀하게 설정 가능.
Haystack: 독일 딥셋이 만든 RAG 프레임워크. 엔터프라이즈 환경에 강점.
RAGAs: RAG 시스템의 품질을 자동 평가하는 프레임워크. 충실성(Faithfulness), 답변 관련성, 컨텍스트 관련성 등 지표 제공.
---
7. 한계와 RAG를 넘어서
RAG는 만능이 아니다.
파인튜닝과의 비교: 특정 도메인의 지식과 말투를 완전히 내재화하려면 파인튜닝이 낫다. RAG는 '참조'는 하지만 '학습'은 아니다.
실시간 데이터: 스트리밍 데이터나 매우 빠르게 변하는 정보에 대응하기 어렵다.
멀티모달: 이미지·영상·오디오가 포함된 문서 처리는 추가 복잡성이 있다.
Long Context LLM 등장: Gemini 1.5 Pro(100만 토큰), Claude의 200K 토큰 같은 초장문 컨텍스트 모델이 등장하면서, "그냥 전체 문서를 다 넣으면 되지 않냐"는 논의도 나오고 있다. 하지만 비용과 지연 시간 측면에서 RAG가 여전히 유리한 경우가 많다.
---
관련 항목
LLM | 벡터 데이터베이스 | 임베딩 | LangChain | LlamaIndex | 할루시네이션 | 파인튜닝 | GraphRAG | 엔터프라이즈 AI | 프롬프트 엔지니어링
RAG (Retrieval-Augmented Generation)
AI 챗봇이 거짓말하는 거 본 적 있음? 그 문제 해결하는 기술이 RAG임. AI 개발자라면 필수로 알아야 하는 개념.
---
RAG가 뭔데
단어 풀이: Retrieval(검색) + Augmented(증강) + Generation(생성). 즉, 검색해서 찾아온 내용을 바탕으로 답변 생성하는 방식임.
일반 AI: 학습 데이터에서 기억으로만 답함 → 최신 정보 모름, 가끔 거짓말함.
RAG: 질문 들어오면 먼저 관련 문서 검색 → 그 문서 보고 답함 → 훨씬 정확함.
마치 오픈북 시험 같은 거임. 아무것도 없이 머릿속만 쓰는 게 아니라 교재 펼쳐놓고 답 쓰는 것.
---
어떻게 작동하냐
1단계 인덱싱: 문서들을 숫자(벡터)로 변환해서 특수 DB에 저장. 이게 '도서관 구축'이라고 보면 됨.
2단계 검색: 질문도 숫자로 변환해서 비슷한 문서 찾기. "코사인 유사도"라는 계산법으로 얼마나 비슷한지 점수 매김.
3단계 생성: 찾은 문서 + 질문을 AI에게 주면 AI가 답변 작성. 이때 AI가 문서를 참고해서 답하니까 거짓말 확률이 확 줄어듦.
---
왜 기업들이 이걸 씀
GPT-4가 우리 회사 내부 정책 알 수가 없잖음. 그렇다고 GPT-4를 사내 문서로 다시 학습시키면 수억 원임. 근데 RAG 쓰면 사내 문서 벡터DB에 넣어두고, 질문 올 때마다 관련 부분 검색해서 GPT에게 전달. 비용도 적고, 문서 업데이트도 쉬움.
법률 AI, 의료 AI, 금융 AI 거의 다 RAG 기반임. 엔터프라이즈 AI 구현의 80% 이상이 RAG라고 할 정도.
---
요즘 고급 기법들
GraphRAG: 마이크로소프트가 만든 거. 문서 속 개념들 관계까지 파악해서 더 복잡한 질문도 잘 답함. 2024년 오픈소스 공개됨.
Agentic RAG: AI가 스스로 몇 번 검색할지도 결정하는 진화형. 더 똑똑한 버전.
HyDE: 질문을 받으면 먼저 이상적인 답변 문서를 AI가 가상으로 만들어보고, 그와 비슷한 실제 문서를 검색하는 방법. 검색 정확도 올려줌.
---
한계는 뭐냐
문서를 어떻게 쪼개느냐(청킹)에 따라 성능이 확 달라짐. 너무 잘게 쪼개면 맥락이 끊기고, 너무 크면 노이즈가 많아짐. 이게 RAG 세팅의 핵심 노하우임.
초장문 AI(Gemini 1.5 Pro 100만 토큰, 클로드 200K 토큰)가 나오면서 "그냥 전체 문서 다 넣으면 RAG 필요 없지 않냐"는 말도 나오는데, 비용이랑 속도 면에서 RAG가 아직 유리한 경우가 많음.
인공지능(AI)은 때로 틀린 답을 그럴싸하게 말하기도 해요. 마치 공부하다가 잘 모르는 문제를 아는 척 쓰는 것처럼요. 이걸 '할루시네이션(거짓 기억)'이라고 불러요. RAG는 이 문제를 해결해줘요.
---
어떻게 작동하나요?
RAG는 마치 '오픈북 시험'이에요. 질문이 들어오면 먼저 관련 책(문서)을 찾아보고, 그 내용을 참고해서 답변을 만들어요. 기억에만 의존하지 않아서 더 정확해요.
세 단계로 이루어져요.
첫 번째, 도서관 만들기: 여러 문서들을 특별한 숫자로 변환해서 저장해요. 컴퓨터가 이해할 수 있는 형태로 바꾸는 거예요.
두 번째, 책 찾기: 질문과 가장 관련 있는 문서를 골라내요. 도서관에서 필요한 책을 빠르게 찾는 것처럼요.
세 번째, 답변 쓰기: AI가 찾은 문서를 보면서 정확한 답변을 만들어요. 교과서를 보면서 시험 문제를 푸는 것과 비슷해요.
---
어디에 쓰이나요?
회사 챗봇, 도서관 검색, 의료 정보 서비스, 법률 상담 서비스 등에 많이 쓰여요. 최신 정보를 빠르게 찾아서 알려줄 수 있어요. 예를 들어 병원 챗봇이 "이 약의 부작용이 뭔가요?"라는 질문을 받으면, RAG가 의학 정보 문서에서 정확한 답을 찾아줘요.
---
누가 만들었나요?
2020년에 미국의 유명한 AI 회사 메타(Facebook을 만든 회사)의 연구팀이 처음 발표했어요. 지금은 전 세계 수많은 AI 서비스에서 사용되고 있어요. 우리가 쓰는 AI 챗봇 대부분이 이 방법을 사용해요.
---
RAG 덕분에 AI가 어떻게 달라지나요?
RAG가 없으면 AI는 예전에 배운 것만 알아요. 마치 작년 교과서로만 공부한 학생처럼요. RAG가 있으면 최신 정보도 찾아서 답할 수 있어요. 훨씬 더 똑똑하고 정확한 AI가 되는 거예요.
---
더 알아보기
인공지능, 챗봇, LLM, 벡터 데이터베이스에 대해 더 찾아보세요!
RAG (Retrieval-Augmented Generation)
Large Language Models (LLMs) face two major drawbacks: their inability to access information beyond their training data cutoff date and their tendency towards plausible but inaccurate responses (hallucinations). RAG addresses both issues simultaneously, emerging as the de facto standard for AI product implementation since its unveiling by Meta AI in 2020.
---
1. Core Concept of RAG
RAG operates on a straightforward principle: when a query is posed to the AI, it first retrieves relevant documents and then uses these documents as context to generate an answer—akin to an open-book exam rather than relying solely on memory.
Difference from Traditional LLMs:
Traditional LLMs: Rely solely on data learned during training, lacking current information and prone to generating false memories.
RAG: Consults external knowledge bases for each query, enabling up-to-date information and source attribution.
---
2. RAG's Three-Step Pipeline
1. Indexing: Documents are segmented into chunks and converted into numerical vectors (embeddings) for storage in a vector database, akin to building a library.
- Notable Vector Databases: Pinecone, Weaviate, Chroma, Qdrant, pgvector (PostgreSQL extension).
2. Retrieval: User queries are transformed into vectors to identify the most semantically similar document chunks through similarity measures like cosine similarity or ANN techniques. This is the critical retrieval phase.
- Retrieval Methods:
- Dense Retrieval: Utilizes embedding vectors for semantic similarity.
- Sparse Retrieval: Employs keyword-based methods like BM25, excelling in precise term matching.
- Hybrid Approach: Combines both methods, widely adopted in practice.
3. Generation: Retrieved document chunks are fed into the LLM as prompts, enabling it to generate a final response grounded in the contextual information provided.
---
3. Significance: Cornerstone of Enterprise AI
Imagine deploying an AI chatbot within a company. If asked about return policies, a standard GPT-4 model wouldn't have access to this information without extensive retraining on thousands of internal documents, costing millions of dollars.
With RAG: Internal documents are indexed in a vector database, allowing relevant documents to be dynamically retrieved and provided to GPT-4 for each query, enabling up-to-date knowledge integration without retraining. This approach underpins over 80% of current enterprise AI implementations, spanning legal, medical, and financial applications.
---
4. Key Challenges in RAG
Chunking Strategy: The division of documents affects retrieval quality; overly small chunks disrupt context, while large chunks introduce noise. Semantic chunking, understanding document structure, is advancing.
Embedding Model Selection: Various options like OpenAI’s text-embedding-3, Cohere’s embed-v3, and open-source models like BGE exist, with domain-specific embeddings often outperforming general ones.
Context Window Limitations: Retrieving too many chunks can exceed LLM context limits, leading to the "Lost in the Middle" issue where only prompt extremities are effectively utilized.
Search Quality: Effective document retrieval is crucial for system performance, prompting research into techniques like query refinement and virtual document embedding (HyDE).
---
5. Advanced RAG Techniques
Beyond Basic RAG:
HyDE (Hypothetical Document Embedding): Generates a hypothetical ideal answer document based on the query, then searches for similar actual documents, enhancing query-document embedding alignment.
RAPTOR: Summarizes documents hierarchically for multi-level abstraction searches, beneficial for understanding lengthy documents comprehensively.
GraphRAG: Integrates with knowledge graphs to leverage entity relationships for complex multi-hop reasoning; Microsoft released an open-source version in 2024.
Agent RAG: Empowers AI agents to dynamically decide search strategies, iteratively refining answers through multiple searches and evaluations.
---
6. Key Frameworks and Tools
LangChain: A prominent Python framework for building RAG pipelines, compatible with various vector databases and LLMs.
LlamaIndex: Specialized for indexing and retrieval, offering more granular indexing capabilities than LangChain.
Haystack: Developed by Deepset, particularly strong in enterprise environments.
RAGAs: Frameworks for automatically evaluating RAG system quality, providing metrics like faithfulness, relevance, and contextual coherence.
---
7. Limitations and Beyond RAG
RAG is not without limitations:
Fine-tuning vs. RAG: While RAG provides contextual references, fine-tuning remains superior for deeply ingraining domain-specific knowledge and language nuances.
Real-time Data Handling: Challenges arise with rapidly evolving data streams or highly dynamic information environments.
Emergence of Long Context LLMs: Models like Gemini 1.5 Pro (100 million tokens) and Claude (200K tokens) suggest potential alternatives, though RAG often remains advantageous due to cost and latency considerations.
---
Related Topics
LLM
Vector Databases
Embeddings
LangChain
LlamaIndex
Hallucination
Fine-tuning
GraphRAG
Enterprise AI
Prompt Engineering
English version not yet available.
English version not yet available.
문서 정보
최초 작성
최종 갱신
분량
3,008자 (성인 기준)
분류
기술
HANGUL.WIKI가 정리·작성한 문서입니다. 정확성을 위해 노력하나 오류가 있을 수 있으므로,
중요한 내용은 공식 출처를 통해 확인하시기 바랍니다.
내용의 오류나 정정 요청은 오류·정정 신고로 알려주시면 검토 후 반영합니다.