RAG(Retrieval-Augmented Generation)は、LLMに外部知識ベースを参照させることで、ハルシネーションを抑制し、社内ドキュメントや最新情報に基づいた回答を実現する手法です。
n8nを使えば、データの取り込みから埋め込み生成、ベクトルデータベースへの格納、検索、回答生成まで、RAGパイプライン全体をノーコード/ローコードで構築できます。
この記事では、n8nでRAGシステムを構築するための技術的な詳細を、上級者向けに解説します。
この記事でわかること
- RAGアーキテクチャの全体像と各コンポーネントの役割
- n8nで利用可能なベクトルデータベース(Pinecone / Qdrant / Supabase)の比較
- チャンク分割戦略とEmbeddingモデルの選択
- データインジェスションとクエリパイプラインの構築
- Reranking、Contextual Retrieval、Agentic RAGなどの高度なテクニック
RAGアーキテクチャの全体像
n8nで構築するRAGシステムは、大きく2つのパイプラインで構成されます。
1. データインジェスションパイプライン
ドキュメントをベクトルデータベースに格納するフローです。
- データソースからの取得:Google Drive、Notion、HTTP Requestなどでドキュメントを取得
- テキスト抽出:Default Data Loaderでテキストコンテンツを抽出
- チャンク分割:Text Splitterで適切なサイズに分割
- 埋め込み生成:Embeddings OpenAI / Geminiでベクトル化
- ベクトルストアへの格納:Pinecone / Qdrant / SupabaseにUpsert
2. クエリパイプライン
ユーザーの質問に対して回答を生成するフローです。
- クエリ受信:Chat Trigger / Webhookでユーザー入力を受け取る
- クエリの埋め込み:質問文をベクトル化
- 類似検索:ベクトルストアから関連チャンクを取得
- コンテキスト構築:取得したチャンクをプロンプトに組み込む
- 回答生成:LLM(GPT-4o / Gemini / Claude)で回答を生成
n8nのRAG関連ノード
| カテゴリ | ノード名 | 用途 |
|---|---|---|
| ベクトルストア | Pinecone Vector Store | フルマネージドなベクトルDB |
| ベクトルストア | Qdrant Vector Store | 高速なオープンソースベクトルDB |
| ベクトルストア | Supabase Vector Store | PostgreSQL + pgvector |
| ベクトルストア | In-Memory Vector Store | 簡易テスト用 |
| 埋め込み | Embeddings OpenAI | text-embedding-3-small/large |
| 埋め込み | Embeddings Google Gemini | text-embedding-004 |
| テキスト分割 | Recursive Character Text Splitter | 文字数ベースの再帰的分割 |
| テキスト分割 | Token Text Splitter | トークン数ベースの分割 |
| データローダー | Default Data Loader | 各種ファイル形式のテキスト抽出 |
| 検索ツール | Vector Store Tool | AI Agentからの検索ツール |
| リトリーバー | Vector Store Retriever | Q&A Chainとの接続 |
ベクトルデータベースの比較と選択
n8nでネイティブサポートされている主要なベクトルデータベースを比較します。
Pinecone
特徴
- フルマネージドサービスで運用負荷がゼロ
- スケーラビリティが高く、大規模データにも対応
- Namespace機能でデータを論理的に分離可能
- メタデータフィルタリングが強力
料金
- Starter(無料):インデックス1つ、100万ベクトルまで
- Standard:$0.00025/クエリ、$0.025/GB/月
n8nでの設定
- Pinecone Index Name: n8n-rag
- Pinecone Namespace: company-docs
- Embeddings: text-embedding-3-small (1536次元)
Qdrant
特徴
- Rustで実装された高性能ベクトルDB
- セルフホスト可能(Docker対応)
- Qdrant Cloudでマネージドサービスも提供
- ハイブリッド検索(密/疎ベクトル)に対応
- メタデータフィルタリングが高速
料金
- セルフホスト:無料(OSS)
- Qdrant Cloud Free Tier:1GBストレージまで無料
n8nでの設定
- Qdrant URL: https://xxx.qdrant.cloud:6333
- API Key: qdrant-api-key
- Collection Name: documents
Supabase(pgvector)
特徴
- PostgreSQLベースでSQLクエリが使える
- 認証・ストレージ・リアルタイムと統合可能
- 既存のPostgreSQLインフラを活用できる
- メタデータとベクトルを同一DBで管理
料金
- Free Tier:500MBストレージまで無料
- Pro:$25/月〜
Supabaseでのテーブル作成SQL
-- pgvector拡張の有効化
create extension if not exists vector;
-- documentsテーブルの作成
create table documents (
id bigserial primary key,
content text,
metadata jsonb,
embedding vector(1536)
);
-- 類似検索用のインデックス
create index on documents
using ivfflat (embedding vector_cosine_ops)
with (lists = 100);
ベクトルDB選択の指針
| 要件 | 推奨DB | 理由 |
|---|---|---|
| とにかく早く始めたい | Pinecone | 設定が最もシンプル |
| コストを抑えたい | Qdrant(セルフホスト) | 完全無料で運用可能 |
| 既存のSupabaseプロジェクトがある | Supabase | インフラ統合のメリット |
| ハイブリッド検索が必要 | Qdrant | 疎密ベクトル対応 |
| 大規模データ(100万件以上) | Pinecone / Qdrant | スケーラビリティ |
チャンク分割戦略
RAGの精度を左右する重要な要素がチャンク分割です。n8nで利用可能な分割方法と、その使い分けを解説します。
Recursive Character Text Splitter
最も汎用的な分割方法で、指定した文字数で再帰的に分割します。
パラメータ
- Chunk Size:1つのチャンクの最大文字数(推奨: 500〜1500)
- Chunk Overlap:チャンク間の重複文字数(推奨: 100〜200)
- Separators:分割に使用する区切り文字(デフォルト: nn, n, ” “, “”)
設定例
Chunk Size: 1000
Chunk Overlap: 200
Separators: ["nn", "n", "。", " "]
Token Text Splitter
トークン数ベースで分割します。LLMのコンテキストウィンドウを意識した分割に有効です。
パラメータ
- Chunk Size(tokens):1チャンクの最大トークン数
- Chunk Overlap(tokens):重複トークン数
チャンクサイズの選定指針
| ドキュメントタイプ | 推奨Chunk Size | 推奨Overlap | 理由 |
|---|---|---|---|
| FAQ・ナレッジベース | 500〜800 | 100 | 質問-回答ペアを1チャンクに |
| 技術ドキュメント | 1000〜1500 | 200 | セクション単位で意味を保持 |
| 法務・契約書 | 800〜1200 | 200 | 条項の文脈を維持 |
| 議事録・レポート | 1000〜2000 | 200〜300 | 話題の連続性を確保 |
| ソースコード | 500〜1000 | 100 | 関数・クラス単位 |
Context-Aware Chunking
より高度なアプローチとして、各チャンクにドキュメント全体のコンテキストを付与する方法があります。
実装のポイント
- ドキュメント全体の要約を生成
- 各チャンクに要約をプレフィックスとして追加
- チャンクの位置情報(セクション名、ページ番号)をメタデータに格納
Codeノードでの実装例
const documentSummary = $('OpenAI').item.json.message.content;
const chunks = $input.all();
return chunks.map((chunk, index) => ({
json: {
content: [Document Summary: ${documentSummary}]nn${chunk.json.content},
metadata: {
chunkIndex: index,
totalChunks: chunks.length,
source: chunk.json.source
}
}
}));
Embeddingモデルの選択
埋め込みモデルの選択は検索精度に直結します。
OpenAI Embedding Models
| モデル | 次元数 | 価格(/100万トークン) | 用途 |
|---|---|---|---|
| text-embedding-3-small | 1536 | $0.02 | コスト重視、一般用途 |
| text-embedding-3-large | 3072 | $0.13 | 高精度が必要な場合 |
| text-embedding-ada-002 | 1536 | $0.10 | レガシー(非推奨) |
Google Gemini Embedding
| モデル | 次元数 | 価格 | 特徴 |
|---|---|---|---|
| text-embedding-004 | 768 | 無料枠あり | Geminiエコシステムとの統合 |
重要な注意点
インジェスションとクエリで同じモデルを使用
埋め込みモデルが異なると、ベクトル空間が一致せず検索精度が大幅に低下します。必ず同じモデルを使用してください。
ベクトルDBの次元数設定
Pineconeのインデックス作成時やSupabaseのテーブル定義時に、使用するEmbeddingモデルの次元数に合わせて設定してください。
データインジェスションパイプラインの構築
Google Driveからドキュメントを自動取り込みするパイプラインを構築します。
ワークフロー構成
- Google Drive Trigger:新規ファイル / 更新を検知
- Google Drive(Download):ファイルをダウンロード
- Default Data Loader:テキスト抽出(Binary Mode)
- Recursive Character Text Splitter:チャンク分割
- Embeddings OpenAI:ベクトル化
- Pinecone Vector Store(Insert Mode):格納
Google Drive Triggerの設定
- Trigger On:File Created / File Updated
- Watch Folder:対象フォルダID
- Poll Times:Every 5 Minutes
Default Data Loaderの設定
- Type of Data:Binary
- Data Format:自動検出(PDF、DOCX、TXTなどに対応)
メタデータの付与
検索結果のフィルタリングや出典表示のために、メタデータを付与します。
Codeノードでのメタデータ設定
const fileName = $('Google Drive').item.json.name;
const fileId = $('Google Drive').item.json.id;
const mimeType = $('Google Drive').item.json.mimeType;
const modifiedTime = $('Google Drive').item.json.modifiedTime;
return [{
json: {
metadata: {
source: fileName,
fileId: fileId,
mimeType: mimeType,
updatedAt: modifiedTime,
department: 'HR' // カスタムメタデータ
}
}
}];
Upsert(更新時の再インデックス)
ドキュメント更新時に古いベクトルを削除してから新しいベクトルを挿入する処理が必要です。
Pineconeの場合
Namespaceとファイルに基づく一意のIDを生成し、同じIDで上書きします。
Qdrantの場合
HTTP Requestノードでポイントを削除してから挿入します。
// 削除エンドポイント
DELETE https://xxx.qdrant.cloud:6333/collections/{collection}/points/delete
// ペイロード
{
"filter": {
"must": [
{ "key": "fileId", "match": { "value": "google-drive-file-id" } }
]
}
}
クエリパイプラインの構築
ユーザーの質問に対して回答を生成するパイプラインを構築します。
基本構成:AI Agent + Vector Store Tool
- Chat Trigger:ユーザー入力を受信
- AI Agent:推論と回答生成
- OpenAI Chat Model:GPT-4o
- Vector Store Tool:ベクトル検索
- Window Buffer Memory:会話履歴の保持
AI Agentの設定
System Message
あなたは社内ドキュメントに基づいて質問に回答するアシスタントです。
【重要なルール】
- 回答は必ずVector Storeから取得した情報に基づいてください
- 情報が見つからない場合は「該当する情報が見つかりませんでした」と回答してください
- 推測や一般的な知識での回答は避けてください
- 回答には出典(ファイル名)を含めてください
- 複数のドキュメントから情報を統合する場合は、各情報の出典を明記してください
Vector Store Toolの設定
- Name:company_knowledge_base
- Description:社内ドキュメント(就業規則、マニュアル、FAQ)を検索するツールです。質問に関連する情報を取得します。
- Top K:5(取得するチャンク数)
Window Buffer Memoryの設定
- Context Window Length:10(保持するメッセージ数)
- Session ID:{{ $json.sessionId }}(セッション管理)
高度なテクニック
RAGの精度を向上させるための高度なテクニックを紹介します。
1. Reranking(再ランキング)
ベクトル検索で取得したチャンクを、別のモデルで再評価して順位を最適化します。
Cohere Rerankを使用した実装
- Vector Storeから上位20件を取得
- HTTP RequestでCohere Rerank APIを呼び出し
- 再ランキング結果の上位5件をコンテキストとして使用
Cohere Rerank APIの呼び出し
POST https://api.cohere.ai/v1/rerank
{
"model": "rerank-english-v3.0",
"query": "ユーザーの質問",
"documents": ["チャンク1", "チャンク2", ...],
"top_n": 5
}
2. Hybrid Search(ハイブリッド検索)
密ベクトル検索(セマンティック)とスパースベクトル検索(キーワード)を組み合わせます。
Qdrantでのハイブリッド検索
Qdrantは密ベクトルと疎ベクトルの両方を同一コレクションに格納できます。
// クエリ例
{
"prefetch": [
{
"query": { "indices": [1, 42, 100], "values": [1.0, 0.5, 0.3] },
"using": "sparse",
"limit": 20
},
{
"query": [0.01, 0.45, ...],
"using": "dense",
"limit": 20
}
],
"query": { "fusion": "rrf" },
"limit": 10
}
3. Query Transformation(クエリ変換)
ユーザーの質問をそのまま検索するのではなく、検索に最適化した形式に変換します。
実装パターン
- Query Expansion:同義語や関連語を追加
- Query Decomposition:複合的な質問を分解して複数回検索
- Hypothetical Document Embedding(HyDE):仮想的な回答を生成し、それで検索
HyDEの実装例
// Step 1: 仮想回答を生成
System: この質問に対する理想的な回答を生成してください(実際の情報ではなく、形式として)
User: {{ $json.question }}
// Step 2: 生成した仮想回答で検索
→ より精度の高いチャンクが取得できる
4. Agentic RAG
AI Agentが自律的に検索戦略を決定し、必要に応じて複数回検索を行うパターンです。
ツールの構成例
- general_search:全ドキュメント横断検索
- policy_search:就業規則専用検索(メタデータフィルタ)
- technical_search:技術ドキュメント専用検索
- recent_search:直近1ヶ月のドキュメント検索
AI Agentがユーザーの質問に応じて適切なツールを選択・組み合わせて回答を生成します。
パフォーマンス最適化
インジェスション最適化
- バッチ処理:Split In Batchesノードで大量ドキュメントを分割処理
- 並列処理:複数のワークフローで並行インジェスション
- 差分更新:変更があったドキュメントのみ再インデックス
検索最適化
- Top K の調整:精度とレイテンシのバランスを調整
- メタデータフィルタ:検索対象を絞り込んで高速化
- キャッシュ:頻出クエリの結果をキャッシュ
コスト最適化
- Embeddingモデル:text-embedding-3-smallで十分な場合が多い
- LLMモデル:gpt-4o-miniで回答生成(精度要件次第)
- チャンクサイズ:大きすぎるとEmbeddingコストが増加
トラブルシューティング
検索精度が低い場合
- チャンクサイズを調整(小さすぎると文脈喪失、大きすぎると関連度低下)
- Overlapを増やして文脈の連続性を確保
- Top Kを増やして候補を広げる
- Rerankingを導入
ハルシネーションが発生する場合
- System Messageで「情報がない場合は回答しない」を明記
- 検索結果が空の場合の分岐処理を追加
- 出典の明示を必須にする
レイテンシが高い場合
- Top Kを減らす
- ベクトルDBのインデックスを最適化
- LLMモデルを軽量なものに変更
まとめ
この記事では、n8nでRAGシステムを構築するための技術的な詳細を解説しました。
アーキテクチャの要点
- データインジェスションとクエリの2つのパイプライン
- チャンク分割 → 埋め込み → ベクトルストアの流れ
- AI Agentによる検索と回答生成の統合
ベクトルDB選択の指針
- Pinecone:フルマネージドで簡単に始められる
- Qdrant:高性能でセルフホスト可能
- Supabase:PostgreSQLエコシステムとの統合
精度向上のテクニック
- 適切なチャンクサイズとOverlapの設定
- Context-Aware Chunking
- Reranking
- Hybrid Search
- Agentic RAG
次のステップ
- シンプルなRAG構成(Pinecone + OpenAI)で動作確認
- チャンク分割パラメータのチューニング
- メタデータを活用したフィルタリング
- Rerankingによる精度向上
- Agentic RAGで複雑なクエリに対応
n8nを使えば、これらの高度なRAGパターンをノーコード/ローコードで実装できます。自社のドキュメントに基づいた高精度なAIチャットボットの構築にぜひ活用してください。

