17日前

ノイズ除去によるテーブルテキスト検索:オープンドメイン質問応答向け

Deokhyung Kang, Baikjin Jung, Yunsu Kim, Gary Geunbae Lee
ノイズ除去によるテーブルテキスト検索:オープンドメイン質問応答向け
要約

テーブル・テキストを対象としたオープンドメイン質問応答において、リトリーバーシステムは質問に必要な証拠となるテーブルおよびテキストを検索する。従来のテーブル・テキストオープンドメイン質問応答に関する研究には、以下の2つの共通する課題が存在する。第一に、訓練データに誤って付与された正例(false-positive)ラベルの影響を受けることがある。第二に、テーブル全体にわたる推論を要する質問に対して適切な証拠を提供しづらいことがある。これらの課題に対処するため、本研究では「Denoised Table-Text Retriever(DoTTeR)」を提案する。本手法では、誤検出を検出するためのモデルを用いて、質問との関連性スコアが低いインスタンスを削除することで、誤正例が少ないノイズ除去済みの訓練データを構築する。さらに、テーブル全体のランク情報(table-level ranking information)をリトリーバーに統合し、複数のセルにまたがる推論を必要とする質問に対しても適切な証拠を検索しやすくする。このランク情報を符号化するために、列単位で最小値および最大値を識別できるように、ランク意識型のカラムエンコーダーをファインチューニングする。実験の結果、DoTTeRはリトリーブのリコール率および下流のQAタスクにおいて、強力なベースラインを顕著に上回ることが示された。本研究のコードは、https://github.com/deokhk/DoTTeR で公開されている。

ノイズ除去によるテーブルテキスト検索:オープンドメイン質問応答向け | 最新論文 | HyperAI超神経