2ヶ月前

WinoGrande: 大規模な対抗的なウィノグラッドスキーマチャレンジ

Keisuke Sakaguchi; Ronan Le Bras; Chandra Bhagavatula; Yejin Choi
WinoGrande: 大規模な対抗的なウィノグラッドスキーマチャレンジ
要約

ウィノグラッドスキーマチャレンジ (WSC) (Levesque, Davis, and Morgenstern 2011) は、常識的な推論のベンチマークとして、統計モデルが選択的嗜好や単語の関連性に依存して解くことができないよう設計された273の専門家による代名詞解釈問題の集合です。しかし、最近のニューラル言語モデルの進歩により、WSCのバリエーションで約90%の精度を達成しています。これにより、これらのモデルが本当に堅牢な常識的能力を獲得したのか、それともデータセット内の誤ったバイアスに依存しているため機械の常識能力が過大評価されているのかという重要な疑問が提起されます。この疑問を調査するために、私たちは WinoGrande を導入します。これは、元々のWSCデザインにインスピレーションを受けつつ、データセットの規模と難易度を向上させるために調整された44,000問題の大規模データセットです。データセット構築の主要な手順は以下の通りです。(1) 精密に設計されたクラウドソーシング手順を行い、(2) 新しい AfLite アルゴリズムを使用して人間が検出可能な単語の関連性を機械が検出可能な埋め込み関連性に一般化することで系統的なバイアスを削減します。WinoGrande 上での最新の最先端手法では、訓練データ量によって異なるものの、最高で59.4-79.1% の精度が達成されています。これは人間の性能(94.0%)よりも15-35%低い結果となっています。さらに、私たちは5つの関連するベンチマーク - WSC (90.1%)、DPR (93.1%)、COPA (90.6%)、KnowRef (85.6%)、および Winogender (97.1%) - において新しい最先端結果を確立しました。これらの結果には二重の意味があります。一方では、WinoGrande を転移学習リソースとして使用した際の有効性を示しています。他方では、これらのベンチマーク全体で機械の常識能力が過大評価されている可能性があることを懸念しています。私たちは既存および将来のベンチマークにおけるアルゴリズム的バイアス削減的重要性を強調し、そのような過大評価を緩和することを目指しています。

WinoGrande: 大規模な対抗的なウィノグラッドスキーマチャレンジ | 最新論文 | HyperAI超神経