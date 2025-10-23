RAG製品「ChatBrid」、複数カラム自由テキスト対応とし、豊富なテキスト入り表形式文書を高精度に知識化 ～テキストマイニングの知見を活かし重み付け×可視化でRAGの検索精度と運用性を同時に強化
メタデータ株式会社（所在地：東京都文京区、代表取締役社長：野村直之）は、高精度RAGエンジン「ChatBrid（チャットブリッド）」を複数テキストカラム対応に拡張しました。任意の数のテキスト列を持つCSVを取り込むだけで、回答・見出し（質問）・サブテキスト群・属性の各フィールドをベクトル化し、重み付け（W）を反映した類似検索が可能になります。さらに、ヒットしたチャンクの任意カラムのみをLLMへ送出でき、処理速度・機密性・精度を同時に高めます。合わせてビジュアル類似検索を複数テキスト列対応のRAGに最適化。知識デバッグの決定打として、表形式に散らばった情報を高精度に“知識化”します。
【画像 https://www.dreamnews.jp/?action_Image=1&p=0000332481&id=bodyimage1】
複数テキストカラム対応のビジュアル類似検索
■ 背景
当社は2018年よりテキストマイニング製品「Mr.Data」「Mrテキスト分析」でヴィジュアル類似検索を提供してきました。RAGの実務運用においても、“なぜヒットしたか”を視覚的に把握し、どのフィールドをどれだけ重視するかを自在に調整できることが、知識デバッグの生産性と最終回答の品質を左右します。今回の拡張は、そのノウハウをRAGに最適化したものです。
従来のChatBridは、「見出し（質問）」と「本文（回答）」のペアを中心にベクトル化・検索してきました（https://metadata.co.jp/services/chatbrid.html）。しかし実務のデータは、FAQ・マニュアル・議事録・問い合わせ履歴・品質票など、1レコード内に複数のテキストフィールド（例：件名・要約・本文・タグ・備考）があることが一般的です。今回の拡張により、表形式の情報密度を余さず検索と生成に活かすことが可能になりました。
■ 仕組み（概念図のポイント）
● 検索対象の構成要素
図左の「Vector Databases」では、各データセットに「回答（W_ans）」「見出し（W_head）」「サブテキスト群（各W_c,i）」「マニュアル名（W_manual）」「各種属性群（W_category）」を保持。各W（重み）は0.0以上で設定でき、精密な類似度計算に寄与します。
● 重み付けの使い分け
例：FAQでは見出し重視（W_head↑）、長文マニュアルでは本文＝回答重視（W_ans↑）、タグや備考は補助的に（W_c,iやW_categoryを控えめに）など、データ特性に応じて最適化可能。
● 最小限送出設計
図右下の緑吹き出しのとおり、上位に入ったチャンクの必要なカラムのみをChatBridからLLMへ送ります。不要情報は送らないため、
o トークン削減で処理速度向上
o 機密を含むカラムの非送出で情報保護
o ノイズ低減で回答の一貫性向上
を実現します。
■ 新機能（今回のアップデート）
● 複数テキストカラムのベクトル検索対応
任意個のテキスト列を取り込み、一括でベクトル化・検索対象化。
● カラムごとの重み設定（0.0以上）
類似度計算に反映。UIで即時プレビューでき、チューニングの効果を可視化。
● 送出カラム選択
類似度上位チャンクの任意カラムだけをLLMへ送出可能。
● 属性の参考情報送出（任意）
マニュアル名・主管部門・カテゴリなどの非テキスト属性を、LLMへの補助コンテキストとして付与／非付与を選択。
【画像 https://www.dreamnews.jp/?action_Image=1&p=0000332481&id=bodyimage2】
■ 画面と運用（ヴィジュアル類似検索の強化）
● 検索クエリ中のキーワードがどのカラムのどこにヒットしたかを対応色で色分けハイライト。