2ヶ月前
常識推論タスクの合理性:ウィノグラッドスキーマチャレンジとSWAGに関する事例研究
Paul Trichelair; Ali Emami; Adam Trischler; Kaheer Suleman; Jackie Chi Kit Cheung

要約
最近の研究は、ウィノグラッドスキーマチャレンジ(WSC)やSWAGなどの常識推論(Common-Sense Reasoning: CSR)ベンチマークにおける最先端の成果を大幅に向上させています。本稿では、これらのベンチマークでの性能向上が、真正な常識機能を持つシステムへの進歩を示しているかどうかを問いかけます。私たちは両方のベンチマークについて事例研究を行い、以前の実験設計の妥当性に対する脅威を分析することで、その結果を明確かつ適切に説明するプロトコルを設計しました。私たちのプロトコルは、常識ベンチマークで一般的に見られるサイズ制限、構造的な規則性、およびインスタンス難易度の変動などの複数の特性を考慮しています。