2ヶ月前
ウィノグラードスキーマチャレンジに対する驚くほど堅牢なトリック
Vid Kocijan; Ana-Maria Cretu; Oana-Maria Camburu; Yordan Yordanov; Thomas Lukasiewicz

要約
ウィノグラッドスキーマチャレンジ(WSC)データセットのWSC273とその推論対応版WNLIは、自然言語理解と常識推論のための人気ベンチマークとなっています。本論文では、類似した代名詞解釈問題データセット(WSCRと表記)で微調整された3つの言語モデルがWSC273において大幅に性能向上を示すことを示しています。さらに、大規模な非監督型WSC風データセットを生成しました。BERT言語モデルを新規導入されたデータセットおよびWSCRデータセットで微調整することで、WSC273とWNLIにおいて全体的な精度がそれぞれ72.5%と74.7%となり、従来の最先端ソリューションよりもそれぞれ8.8%と9.6%改善されました。また、Trichelairら(2018)によって導入されたWSC273の「複雑」な部分集合でも、我々の微調整済みモデルは一貫してより堅牢であることが確認されました。