RAG(Retrieval-Augmented Generation)はLLMの回答生成に外部知識を組み合わせる手法。インデックス→検索→生成の3ステップ・ベクトルDB・LangChainとの関係を解説します。
RAG(Retrieval-Augmented Generation:検索拡張生成)とは、LLMの回答生成に外部の知識ベースから検索・取得した情報を組み合わせる手法です。LLMが「知らない情報(最新データ・社内文書)」を回答できるようにし、ハルシネーション(事実誤認)を減らす効果があります。
| コンポーネント | 役割 | 代表的なツール/サービス |
|---|---|---|
| エンベディングモデル | テキスト→ベクトル変換 | text-embedding-3-small (OpenAI)・Cohere |
| ベクトルDB | ベクトルの格納・類似検索 | Pinecone・Weaviate・pgvector・Chroma |
| LLM | 検索結果を元に回答生成 | GPT-4o・Claude・Gemini |
| オーケストレーション | 全体のパイプライン管理 | LangChain・LlamaIndex・Dify |
RAGは「最新情報・特定文書を参照させたい」「コストを抑えたい」場合に向いています。ファインチューニングは「特定のトーン・スタイル・専門知識を学習させたい」場合に向いています。まずRAGを試すのが定石です。
一般的には512〜1000トークン程度が出発点です。チャンクが大きすぎると不要な情報も含まれ、小さすぎると文脈が失われます。ドキュメントの構造(段落・章)に合わせて調整します。
① 機密情報のアクセス制御(誰が何を見られるか)② APIに送信するデータの暗号化 ③ ベクトルDBへの不正アクセス防止 ④ LLM APIへの情報送信ポリシーの確認、が主な注意点です。
ITエンジニア向け転職サービス2強を並行利用するのが最も効果的です。
※どちらも完全無料。登録だけで市場価値を確認できます。