17日前

TANDA:回答文選択のための事前学習済みTransformerモデルの転移と適応

Siddhant Garg, Thuy Vu, Alessandro Moschitti
TANDA:回答文選択のための事前学習済みTransformerモデルの転移と適応
要約

本稿では、事前学習されたTransformerモデルを自然言語処理タスクに微調整するための有効な手法TANDAを提案する。具体的には、まず大規模かつ高品質なデータセットを用いて事前学習モデルを汎用タスク用のモデルに微調整することで、転移学習を実現する。その後、その転移済みモデルをターゲットドメインに適応させるための第二段階の微調整を実施する。本手法の有効性を、質問応答(QA)における代表的な推論タスクである「回答文選択(Answer Sentence Selection)」に対して実証する。転移ステップを可能にするために、Natural Questionsデータセットを活用して大規模なデータセットを構築した。本手法は、広く知られたベンチマークであるWikiQAおよびTREC-QAにおいて、それぞれMAPスコア92%および94.3%を達成し、近年の先行研究で得られた83.4%および87.5%という最高スコアを大きく上回る結果を示した。実証的に、TANDAは最適なハイパーパラメータの選定に必要な作業を削減し、より安定的かつロバストなモデルを生成することを示した。さらに、TANDAの転移ステップが、ノイズを含むデータに対する適応ステップのロバスト性を向上させることを示した。これにより、ノイズを含むデータセットを微調整に効果的に活用できるようになった。最後に、異なる種類のノイズを含むドメイン固有データセットを用いた実産業環境でも、TANDAがポジティブな影響を与えることを確認した。

TANDA:回答文選択のための事前学習済みTransformerモデルの転移と適応 | 最新論文 | HyperAI超神経