2ヶ月前

OmniTab: 自然データと合成データを用いた少量学習テーブルに基づく質問応答の事前学習

Zhengbao Jiang; Yi Mao; Pengcheng He; Graham Neubig; Weizhu Chen
OmniTab: 自然データと合成データを用いた少量学習テーブルに基づく質問応答の事前学習
要約

表の情報はテキストの重要な補完となり得るため、表に基づく質問応答(QA)システムは非常に価値があります。表の処理に固有の複雑さは、モデル設計とデータアノテーション双方にしばしば追加の負担をもたらします。本論文では、最小限のアノテーション労力で単純な表ベースのQAモデルを開発することを目指しています。表ベースのQAには、質問と表との間での対応付けと、複数の表要素に対する複雑な推論を行う能力が求められることから、我々は自然言語と合成データを消費するオムニバス事前学習アプローチを提案します。具体的には、自由に利用可能な表を使用し、それらを関連する自然言語文とペアリングしてマスクベースの事前学習を行います。また、表からサンプリングされたSQLを変換してNL質問を合成し、QA損失を使用した事前学習を行います。我々は少ショットおよびフル設定において広範な実験を行い、その結果は明確に我々のモデルOmniTabの優位性を示しており、最良のマルチタスク手法では128ショット設定で16.2%、フル設定で2.7%という絶対的な改善が達成されました。さらにWikiTableQuestionsにおいて新しい最先端となることを確立しました。詳細な削減分析と解析により、自然言語データと合成データの異なる特性が明らかになり、オムニバス事前学習における将来の方針について示唆を与えています。コード、事前学習データ、および事前学習済みモデルは https://github.com/jzbjyb/OmniTab で入手可能です。注:「削減分析」(ablation studies)は一般的に「省略分析」と訳されることもありますが、「削減分析」の方がより直感的に理解できるため採用しました。

OmniTab: 自然データと合成データを用いた少量学習テーブルに基づく質問応答の事前学習 | 最新論文 | HyperAI超神経