
要約
「車のボンネットを開けた」という部分的な描写が与えられた場合、人間はその状況を推論し、次に何が起こるかを予測することができます(「その後、彼女はエンジンを点検した」)。本論文では、自然言語推論と常識推論を統合する接地された常識推論のタスクを紹介します。私たちはSWAGという新しいデータセットを提示します。このデータセットには11万3千件の選択肢付き質問が含まれており、多様な接地された状況について扱っています。多くの既存のデータセットで見られるアノテーションの人工的要素や人間のバイアスなどの繰り返し発生する課題に対処するために、私たちは敵対的フィルタリング(Adversarial Filtering: AF)という新たな手法を提案します。この手法は、スタイル分類器のアンサンブルを反復的に学習させ、それらを使用してデータをフィルタリングすることで偏りのないデータセットを作成します。敵対的フィルタリングによる厳しい除去に対応するために、最先端の言語モデルを使用して多様な潜在的な反実仮想事例(counterfactuals)を大量に生成しています。実証結果は、人間が高精度で(88%)これらの推論問題を解くことができる一方で、様々な競合モデルが当社のタスクで苦戦していることを示しています。私たちは包括的な分析を行い、今後の研究に大きな機会があることを示唆しています。