8日前
TAPE:Few-shotロシア語理解能力の評価
Ekaterina Taktasheva, Tatiana Shavrina, Alena Fenogenova, Denis Shevelev, Nadezhda Katricheva, Maria Tikhonova, Albina Akhmetgareeva, Oleg Zinkevich, Anastasiia Bashmakova, Svetlana Iordanskaia, Alena Spiridonova, Valentina Kurenshchikova, Ekaterina Artemova, Vladislav Mikhailov

要約
ゼロショットおよびフェイショット学習における最近の進展は、多様な研究および実用的応用において有望な可能性を示している。しかし、この急速に発展している分野は、英語以外の言語に対する標準化された評価セットを欠いており、英語圏中心の枠組みを超えた進展を阻害している。この研究課題に対応するため、本研究では、ロシア語を対象にした6つのより複雑な自然言語理解(NLU)タスクを含む新しいベンチマーク「TAPE(Text Attack and Perturbation Evaluation)」を提案する。TAPEは、マルチホップ推論、倫理的コンセプト、論理的および常識的知識をカバーしており、体系的なゼロショットおよびフェイショットNLU評価を目的として設計されている。具体的には、(i) 言語的特徴に基づく敵対的攻撃および摂動による堅牢性分析、および (ii) 細分化されたサブポピュレーションを用いた解釈の深化を実現している。自己回帰型ベースラインの詳細な評価結果から、単純な綴りに基づく摂動が性能に最も大きな影響を与える一方で、入力の言い換え(paraphrasing)は比較的小さな影響にとどまることが明らかになった。同時に、多数のタスクにおいてニューラルモデルと人間のベースラインの間には顕著な性能ギャップが確認された。本研究では、少ないまたは全くない教師信号のもとで新しいタスクに一般化可能な堅牢な言語モデルの研究を促進するため、TAPEを公開(tape-benchmark.com)する。