
要約
本稿では、マルチモーダルかつリトリーブ補強型の質問応答(QA)を実現するための「アクション連鎖(Chain-of-Action, CoA)」フレームワークを提案する。従来の研究と比較して、CoAは現在のQAアプリケーションが抱える二つの主要な課題を克服している:(i) 実時間情報やドメイン固有の事実と整合性のない「信頼性の低い誤生成( hallucination)」、および (ii) 複合的情報を扱う際の弱い推論性能。本研究の主な貢献は、システム的なプロンプトと事前に設計されたアクションを用いて複雑な質問を推論チェーンに分解する、新しい推論-リトリーブメカニズムの構築である。手法論的には、異種の情報源から実時間情報を取得可能な、ドメイン適応可能な「プラグアンドプレイ型」アクションを3種類提案する。また、回答の整合性を検証し、矛盾を解決するためのマルチリファレンス信頼スコア(Multi-Reference Faith Score, MRFS)を導入している。実証的に、公開ベンチマークとWeb3を活用した事例研究の両方を用いて、CoAが他の手法に比べて優れた性能を発揮することを示した。