RAGとは?わかりやすく解説【検索拡張生成・ベクトルDB・ファインチューニングとの違い】

RAG(Retrieval-Augmented Generation)はLLMの回答生成に外部知識を組み合わせる手法。インデックス→検索→生成の3ステップ・ベクトルDB・LangChainとの関係を解説します。

更新日: 2026-04-27 / IT Career Lab 編集部

RAGとは何か(一言で)

RAG(Retrieval-Augmented Generation:検索拡張生成)とは、LLMの回答生成に外部の知識ベースから検索・取得した情報を組み合わせる手法です。LLMが「知らない情報(最新データ・社内文書)」を回答できるようにし、ハルシネーション(事実誤認)を減らす効果があります。

RAGの仕組み(3ステップ)

① インデックス作成(Indexing) — 社内文書・PDFなどをチャンク(小さな断片)に分割し、エンベディングモデルでベクトル化してベクトルDBに保存する。
② 検索(Retrieval) — ユーザーの質問をベクトル化し、ベクトルDB上で類似度の高いチャンクを検索・取得する(ベクトル類似度検索)。
③ 生成(Generation) — 取得したチャンクをコンテキストとしてLLMに与え、根拠ある回答を生成させる。「以下の情報を元に答えてください」というプロンプトを組み合わせる。

RAGの主要コンポーネント

コンポーネント役割代表的なツール/サービス
エンベディングモデルテキスト→ベクトル変換text-embedding-3-small (OpenAI)・Cohere
ベクトルDBベクトルの格納・類似検索Pinecone・Weaviate・pgvector・Chroma
LLM検索結果を元に回答生成GPT-4o・Claude・Gemini
オーケストレーション全体のパイプライン管理LangChain・LlamaIndex・Dify

よくある質問

RAGは「最新情報・特定文書を参照させたい」「コストを抑えたい」場合に向いています。ファインチューニングは「特定のトーン・スタイル・専門知識を学習させたい」場合に向いています。まずRAGを試すのが定石です。

一般的には512〜1000トークン程度が出発点です。チャンクが大きすぎると不要な情報も含まれ、小さすぎると文脈が失われます。ドキュメントの構造(段落・章)に合わせて調整します。

① 機密情報のアクセス制御(誰が何を見られるか)② APIに送信するデータの暗号化 ③ ベクトルDBへの不正アクセス防止 ④ LLM APIへの情報送信ポリシーの確認、が主な注意点です。

関連用語・ページ

🧠

LLMとは?

RAGと組み合わせる大規模言語モデル

🤖

AI用語集

エンベディング・ベクトルDBなど関連用語

AI活用ガイド

RAGを実務に活用する具体的な方法

ITエンジニアの転職

スキルを転職で年収アップにつなげる

ITエンジニア向け転職サービス2強を並行利用するのが最も効果的です。

Direct typeでスカウトを受取る → レバテックキャリアに相談する →

※どちらも完全無料。登録だけで市場価値を確認できます。