2ヶ月前
CODAH: 常識に関する対抗的に作成された質問応答データセット
Michael Chen; Mike D'Arcy; Alisa Liu; Jared Fernandez; Doug Downey

要約
常識推論はAIにとって重要な能力であるが、そのテストに適した難易度の高いデータセットを構築することは困難である。最近の言語の大規模事前学習モデルに基づくニューラル質問応答システムは、常識的な知識のベンチマークで人間レベルに近い性能を達成している。これらのシステムは人間レベルの常識を持たないが、データセットの限界を利用することで人間レベルのスコアを達成できる。我々はCODAHデータセットを導入する。これは、ビデオで観察された状況を描写する文章完成問題を使用して常識的な知識をテストするSWAGデータセット(最近提案された)に対する難易度の高い拡張である。より難しいデータセットを作成するために、最先端のニューラル質問応答システムの弱点を対象とする質問を作成する新しい手順を導入した。クロスバリデーションにおいて、モデルが微調整前後ともに正しく回答できない質問を提出した作業者には報酬が与えられる。この手順により2,800件の質問を作成し、複数の最先端の質問応答システムにおける当社データセットでの性能評価を行った。その結果、人間の性能(95.3%)とBERT-Largeモデルによる最良基準精度(67.5%)との間に有意な差があることが確認された。