Elcamy
ブログ一覧に戻る
#ビジネス2026.03.19

Dify ナレッジパイプラインとは?RAG精度と運用を左右する設計(失敗例つき)

RAGチャットボットの運用における設計の重要性を解説し、Difyのナレッジパイプラインの機能を紹介。データ取り込み工程の可視化、チャンク分割の推奨設計、メタデータの活用、検索精度向上のためのハイブリッド検索の選択肢を提示。よくある事故とその対策、評価指標、定期的な更新運用の必要性についても言及している。

はじめに

RAGチャットボットを本番稼働させて数週間後、「なぜか古い情報を答え続ける」「特定部署のドキュメントが別部署にも見えてしまった」――こうした事故は、設計段階の判断ミスが後から表面化したものです。

2025年9月にDifyが公開した「ナレッジパイプライン(Knowledge Pipeline)」は、こうした問題の根本原因であるデータ取り込み工程を可視化・制御しやすくする仕組みです。本記事では、パイプラインの構造から実務設計のポイント、よくある失敗パターンと評価指標まで、現場担当者が意思決定できる粒度で解説します。

💡 この記事はこんな方におすすめです

  • AI導入やDXをリードするAI推進担当者
  • セキュアなRAG運用設計が求められる情シス担当者
  • チャットボットの回答精度に課題を感じている業務部門の方

目次


1. ナレッジパイプラインとは何か

Difyが2025年9月に公開した「ナレッジパイプライン」は、RAGにおけるデータ取り込み工程(ETL:Extract → Transform → Load)をワークフロー形式で設計・管理できる機能です。

従来、Difyのナレッジ機能ではファイルをアップロードすると自動でベクトル化される「ブラックボックス」的な処理でした。ナレッジパイプラインではこの処理をノード単位で分解・制御できるようになり、「なぜこのチャンクが拾われないのか」「どの段階で精度が落ちているのか」をトレースしやすくなりました。

一言で言えば: 「RAGのデータ準備工程をGUIで可視化・設計できる機能」


2. 従来のナレッジ機能との違い

比較軸従来のナレッジ機能ナレッジパイプライン
処理の可視性ブラックボックスノードごとに確認・調整が可能
チャンク戦略固定設定のみノードで柔軟に変更可能
データソースファイルアップロード中心プラグインやコネクタ経由で各種クラウド(Google Drive等)に接続可能
マルチモーダルテキスト中心プラグイン構成により画像・表・スキャン文書にも対応可能
デバッグ困難ノード単位でテスト実行や観測が可能

「以前は精度が上がらない理由がわからなかった」という声が多い背景には、この可視性の欠如があります。パイプラインはそこに直接答える設計変更です。


3. パイプラインを構成する主要な工程

Knowledge Pipelineは、一般に以下のような工程(ノード)で構成されます。実際のノード構成は、利用するテンプレートやプラグインによって柔軟に変化します。

  1. データソース(Data Source) ローカルファイルや、コネクタ経由でGoogle Drive・Notion・Confluenceなどの外部データソースに接続します。
  2. 抽出・整形(Data Processing / Extractor & Chunker)
    • 抽出(Extractor): PDFや画像からテキストや構造データを抽出します。画像やスキャン文書への対応も進んでいますが、実際の精度は利用するExtractorやOCRプラグイン(LlamaParse、Unstructured等)の構成に左右されます。
    • チャンク化(Chunker): 抽出したテキストを検索単位に分割します。分割方式・サイズ・オーバーラップを設定する、最も精度に影響する工程です。
    • (※構成によっては、ここでLLMを用いてメタデータを付与・要約する処理(Enricher的な役割)を挟むことも可能です)
  3. ナレッジベース設定(Knowledge Base Node) 処理されたデータをベクトルDB等に格納します。Difyはバックエンド構成によって各種ベクトルDBや検索基盤を利用でき、自己ホスト環境では構成に応じてQdrant / Weaviate / Milvus / pgvectorなどを採用できます。
  4. 入力・テスト(User Input Field / Test & Publish) 構築したパイプラインに対し、テストクエリを投げてチャンクの抽出結果をプレビューし、調整を行います。

▼さらに詳しく知りたい方はこちら

※画像や表を含む複雑なドキュメントを知識化するアプローチについては、こちらの記事もご覧ください。


4. データ種類別:チャンク分割の推奨設計(チェックリスト)

「とりあえずデフォルト設定」が最も多い失敗の入り口です。データの性質ごとに分割戦略を変えることが、RAG精度の最大の改善ポイントになります。

チャンク設計チェックリスト

FAQ・Q&Aドキュメント

  • 1チャンク = 1問1答に揃える
  • チャンクサイズ:200〜400文字
  • オーバーラップ:不要(問答間に意味的連続性がないため)

マニュアル・手順書

  • 手順の「ステップ番号」でセクション区切りを設定
  • チャンクサイズ:400〜600文字
  • オーバーラップ:50〜100文字(手順の前後文脈を保持)
  • メタデータに「版番号」「更新日」を付与する

規程・契約書・法務文書

  • 条番号・項番号で分割(セクション単位)
  • チャンクサイズ:600〜1000文字(条文の文脈を保持)
  • オーバーラップ:100〜150文字
  • 定義語・用語集を別チャンクとして独立登録

表・数値データ(Excel・CSV)

  • テーブル1行 = 1チャンクとなるよう構造化
  • チャンクサイズ:小さめ(200文字以下)
  • カラム名をすべてのチャンクに含める(検索ヒット率向上)
  • 数値範囲クエリはベクトル検索が苦手なため、メタデータフィルタリング併用

社内チャット・メール履歴

  • 個人情報・PII(氏名、連絡先)を匿名化してから取り込む
  • スレッド単位でチャンクを構成(バラバラにしない)

5. 埋め込みモデルとハイブリッド検索の選び方

実務でよく候補に挙がる埋め込みモデル例

以下は、Elcamyの実務経験に基づく埋め込みモデルの候補例です。最適解は、対象文書の言語・コスト制約・レイテンシ・自己ホスト要件などで変わります。

条件の目安候補モデルの例特徴
クラウド利用・高精度text-embedding-3-large(OpenAI)多言語対応・安定した精度
日英混在・マルチ対応bge-m3(オープンソース)多言語対応、ローカルホスト可能
軽量・ローカル動作nomic-embed-text計算リソースを抑えられる
検索精度の底上げbge-reranker-v2-m3 等(併用)初回検索後の再スコアリング

ハイブリッド検索が有効なケース

Difyの検索方式(Retrieval Setting)は主に以下の3種類があります。

  • ベクトル検索のみ: 意味的に近い内容を幅広く拾う。固有名詞・型番には弱い傾向。
  • 全文検索のみ: キーワード完全一致。意味の揺れや類義語に弱い。
  • ハイブリッド検索: 両方を組み合わせ、重み付けやリランキングモデルを用いてスコアリング。

製品名や型番、専門用語が混在する業務ドキュメントにおいては、ハイブリッド検索 + リランキングモデルの組み合わせが、多くの場合で有力な選択肢となります。


6. メタデータ設計で検索精度と権限管理を両立する

Dify v1.1.0以降、ナレッジにカスタムメタデータを付与してフィルタリング検索できる機能が強化されています。これは「精度改善」と「権限管理」の2つの課題を同時に解決できる仕組みです。

推奨メタデータフィールド

document_type : faq / manual / regulation / contract
department    : sales / hr / legal / product
last_updated  : 2026-01-15
access_level  : public / internal / restricted

メタデータを活用した権限制御の設計

RAGシステムの「権限漏れ」事故は、多くの場合このアクセス制御が未設計であることが原因です。

設計方針:

  1. ドキュメント登録時に access_level を必須フィールドとして設定
  2. 部署ごとにアプリを分け、参照できるナレッジを限定する
  3. restricted(制限付き)文書は専用ナレッジベースに分離し、該当アプリからのみ参照可能にする

7. よくある3つの事故と原因・対策

事故1:古い情報を正しいものとして回答し続ける

症状: 規程改定や仕様変更後も、以前の情報を答えてしまう。

対策:

  • ドキュメントに version と last_updated メタデータを付与
  • コネクタ等の自動同期機能を利用するか、旧バージョンのチャンクは「上書き」ではなく「削除→再登録」のフローで管理

事故2:正しい情報があるのに回答できない(検索ミス)

症状: ナレッジに登録してある内容なのに「見つかりません」と回答される。

対策:

  • チャンクサイズをデータ種別ごとに見直す(セクション4参照)
  • 検索方式を「ハイブリッド検索 + リランキング」に見直す
  • 「検索プレビュー」機能でクエリに対してどのチャンクが取得されているかを確認

事故3:別部署のドキュメントが参照されてしまう(権限漏れ)

症状: 人事・経営情報が一般社員向けチャットボットの回答に含まれてしまう。 対策:

  • 取り込み前に「公開レベル別の文書仕分け」を必ず実施
  • 個人情報・機微情報(PII)は対象外とするか匿名化処理を挟む
  • ナレッジベースを公開レベルごとに分離し、アプリごとの参照権限を明示的に制限する


8. RAG品質を測る評価指標

  • 実務上の目安 -

「精度が低い気がする」という感覚的な評価では改善できません。ElcamyがPoC(概念実証)や導入初期に目標値として設定することの多い、実務上の目安をご紹介します。

  • 正答率(Accuracy):目安 80%以上 代表的なクエリセットを用意し、期待回答と照合して正確に回答できた割合。
  • カバレッジ(Coverage):目安 90%以上 「ナレッジに登録されているはずの情報」をクエリとして投げ、情報検索自体が成功した割合。
  • ハルシネーション率:目安 5%以下 回答にナレッジ外の情報(LLM独自の推測)が含まれた割合。システムプロンプトで「ナレッジにない情報は回答しない」と明示して抑制します。

(※より高度な評価を行う場合、RagasやDeepEvalなどの外部評価フレームワークを組み合わせて定量計測を行うアプローチも有効です)

▼さらに詳しく知りたい方はこちら

※より高度な評価を行う場合、外部評価フレームワークを組み合わせて定量計測を行うアプローチも有効です。具体的な評価指標の考え方やRagasの実装については、こちらの記事で詳しく解説しています。


9. 更新運用の設計

  • 陳腐化を防ぐ仕組み -

ナレッジは「一度作ったら終わり」ではなく、定期的な更新・棚卸しが必要なインフラです。

棚卸しチェックリスト(四半期推奨)

  • last_updated が一定期間以上前のチャンクを一覧化
  • 古いバージョンのドキュメントが重複していないか確認
  • 廃止・削除された制度・サービスの情報を除外
  • テストクエリで正答率が前回比で低下していないか確認

10. まとめ

  • 設計フェーズで決まる8割 -

Difyのナレッジパイプラインは、RAG構築における「設計の質」を実装に直接反映させやすくする強力な機能です。

「RAGチャットボットを作った」で終わらせず、「業務で安定して使えるシステム」にするには、チャンク分割、メタデータ、検索方式、そして運用ルールの設計判断を最初に正しく行うことが不可欠です。


Dify導入・ナレッジパイプライン設計のご支援

「社内文書をRAGで活用したいが、どのアーキテクチャが適切かわからない」「PoC後に精度が上がらず本番化できない」という状況であれば、ElcamyのDify導入支援サービスが力になれます。要件定義〜パイプライン設計〜品質評価まで一貫して支援しております。


合わせて読みたい関連記事


出典・免責事項

本記事は、2026年3月時点で確認できる Dify 公式ドキュメント・公式ブログ公開情報をもとに整理しています。Knowledge Pipeline やメタデータ、マルチモーダル機能の仕様はアップデートにより変更される場合があります。導入前には以下の最新の公式情報をご確認ください。