16日前

XCOPA:因果的コモンセンス推論のための多言語データセット

Edoardo Maria Ponti, Goran Glavaš, Olga Majewska, Qianchu Liu, Ivan Vulić, Anna Korhonen
XCOPA:因果的コモンセンス推論のための多言語データセット
要約

人間の言語能力を模倣するためには、自然言語処理システムは日常的な状況の動的性、すなわちその可能性のある原因と結果について推論する能力を備えている必要がある。さらに、得られた世界知識を文化的差異を除いて新しい言語に一般化できる能力も求められる。機械推論および多言語間転移の進展には、挑戦的な評価ベンチマークの可用性が不可欠である。こうした要請に応じて、本研究では11言語(東部アプリマック・ケチュア語やハイチ・クレオール語など資源が乏しい言語を含む)における因果的共通認識推論を対象とした、多様な言語型をカバーする多言語データセット「Cross-lingual Choice of Plausible Alternatives(XCOPA)」を紹介する。本研究では、この新規データセット上で最先端モデルの性能を評価した結果、多言語事前学習およびゼロショット微調整に基づく現在の手法は、翻訳を介した転移手法に比べて性能が劣ることが明らかになった。さらに、小規模なコーパスや双語辞書しか入手できない「サンプル外の資源が乏しい言語」に多言語モデルを適応させるための戦略を提案し、ランダムベースラインに対して顕著な性能向上を報告している。XCOPAデータセットは、github.com/cambridgeltl/xcopaにて無料で公開されている。

XCOPA:因果的コモンセンス推論のための多言語データセット | 最新論文 | HyperAI超神経