2ヶ月前

PASTA: 表操作を意識した事実確認のための文-表クローズ事前学習

Zihui Gu; Ju Fan; Nan Tang; Preslav Nakov; Xiaoman Zhao; Xiaoyong Du
PASTA: 表操作を意識した事実確認のための文-表クローズ事前学習
要約

事実確認は、最近、ジャーナリズム、マーケティング、政策立案などの分野で多くの研究の注目を集めています。オンライン上の誤情報やデジタル操作情報が人々の意見を左右し、行動に影響を与える可能性があるためです。一般的に、事実確認は難しいタスクですが、信頼できる情報を含むテーブルに基づいて分析を行うことで、多くの場合、虚偽の主張を容易に否定することが可能です。このため、テーブルベースの事実確認は重要な研究領域として急速に発展しています。しかし、言語モデル(LM)が一般的なテーブル操作(列の集約やタプルの比較など)を認識するための前学習に使用できるデータセットが不足していることから、進展は限られています。このギャップを埋めるために、本論文ではPASTAと呼ばれる新しい最先端フレームワークを導入します。PASTAは、合成された文-テーブル穴埋め問題を使用して前学習を行うことでテーブルベースの事実確認を実現します。特に、Filter(フィルター)、Aggregation(集約)、Superlative(最上級)、Comparative(比較)、Ordinal(順序)、Unique(一意性)という6種類の一般的な文-テーブル穴埋めタスクを設計し、これらに基づいてWikiTablesから120万件の文-テーブルペアの大規模コーパスを合成しました。PASTAは最近開発された前学習済みLMであるDeBERTaV3を使用し、さらに当該コーパス上で前学習を行います。実験結果によると、PASTAは2つのテーブルベースの事実確認ベンチマークであるTabFactとSEM-TAB-FACTSにおいて新たな最先端性能を達成しています。特に複数の操作が含まれるTabFactの複雑なセットにおいては、PASTAが以前の最先端技術に対して4.7ポイント大幅に優れた性能を示しています(85.6% 対 80.9%)。また、小規模なTabFactテストセットにおけるPASTAと人間の性能差は1.5ポイントまで縮小されました(90.6% 対 92.1%)。

PASTA: 表操作を意識した事実確認のための文-表クローズ事前学習 | 最新論文 | HyperAI超神経