HyperAIHyperAI

Command Palette

Search for a command to run...

CODAH: 常識に関する対抗的に作成された質問応答データセット

Michael Chen Mike D’Arcy Alisa Liu Jared Fernandez Doug Downey

概要

常識推論はAIにとって重要な能力であるが、そのテストに適した難易度の高いデータセットを構築することは困難である。最近の言語の大規模事前学習モデルに基づくニューラル質問応答システムは、常識的な知識のベンチマークで人間レベルに近い性能を達成している。これらのシステムは人間レベルの常識を持たないが、データセットの限界を利用することで人間レベルのスコアを達成できる。我々はCODAHデータセットを導入する。これは、ビデオで観察された状況を描写する文章完成問題を使用して常識的な知識をテストするSWAGデータセット(最近提案された)に対する難易度の高い拡張である。より難しいデータセットを作成するために、最先端のニューラル質問応答システムの弱点を対象とする質問を作成する新しい手順を導入した。クロスバリデーションにおいて、モデルが微調整前後ともに正しく回答できない質問を提出した作業者には報酬が与えられる。この手順により2,800件の質問を作成し、複数の最先端の質問応答システムにおける当社データセットでの性能評価を行った。その結果、人間の性能(95.3%)とBERT-Largeモデルによる最良基準精度(67.5%)との間に有意な差があることが確認された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
CODAH: 常識に関する対抗的に作成された質問応答データセット | 記事 | HyperAI超神経