17日前

CABINET：コンテンツ関連性に基づくノイズ低減によるテーブル質問応答

Sohan Patnaik, Heril Changwal, Milan Aggarwal, Sumit Bhatia, Yaman Kumar, Balaji Krishnamurthy

要約

大規模言語モデル（LLM）の表理解能力は、表に対する質問応答（QA）タスクを通じて広く研究されている。一般的に、与えられた質問に対する回答を導くには、表全体のわずかな部分のみが関連している。残りの不関連部分はノイズとして機能し、モデルの注意力を逸らす情報となるため、LLMがノイズに対して脆弱であるという性質から、性能が最適化されない場合がある。この問題を緩和するために、我々は「CABINET（Content RelevAnce-Based NoIse ReductioN for TablE QuesTion-Answering）」というフレームワークを提案する。CABINETは、表の内容を入力された質問に対する関連性に基づいて重み付けし、不要な情報を抑制することで、LLMが関連する表データに集中できるようにする。CABINETは、QA用LLMと微分的に学習される非教師あり関連性スコアラー（Unsupervised Relevance Scorer, URS）を備えており、そのスコアラーが表の内容を質問との関連性に基づいて評価した上で、QA LLMに供給する。さらに、関連性スコアラーの性能を向上させるために、弱教師ありモジュールを採用し、質問に関連する行および列の基準を記述するパース文を生成するとともに、対応するセルの内容を強調表示する。CABINETは、さまざまな表用LLMベースラインおよびGPT3に基づくコンテキスト内学習手法を大幅に上回り、ノイズに対してよりロバストであり、表のサイズが異なる場合でも優れた性能を維持する。また、WikiTQ、FeTaQA、WikiSQLの各データセットにおいて、新たなSOTA（最先端）性能を達成した。本研究のコードおよびデータセットは、https://github.com/Sohanpatnaik106/CABINET_QA にて公開している。