9 天前
TAPE:评估少样本俄语语言理解能力
Ekaterina Taktasheva, Tatiana Shavrina, Alena Fenogenova, Denis Shevelev, Nadezhda Katricheva, Maria Tikhonova, Albina Akhmetgareeva, Oleg Zinkevich, Anastasiia Bashmakova, Svetlana Iordanskaia, Alena Spiridonova, Valentina Kurenshchikova, Ekaterina Artemova, Vladislav Mikhailov

摘要
近期在零样本(zero-shot)与少样本(few-shot)学习领域的进展,为诸多研究及实际应用展现了广阔前景。然而,这一快速发展的研究方向在非英语语言领域仍缺乏标准化的评估体系,制约了其在英语中心范式之外的进一步发展。为推动该领域的研究,我们提出了TAPE(Text Attack and Perturbation Evaluation)——一个全新的基准测试框架,涵盖俄语的六项更复杂的自然语言理解(NLU)任务,包括多跳推理、伦理概念、逻辑推理与常识知识等。TAPE的设计聚焦于系统化的零样本与少样本NLU评估:(i)基于语言特征的对抗性攻击与扰动,用于分析模型的鲁棒性;(ii)子群体划分,以实现更细致的性能解读。对自回归基线模型的详细测试分析表明,基于拼写变换的扰动对模型性能影响最为显著,而输入文本的改写(paraphrasing)则影响较小。同时,实验结果揭示了神经网络模型与人类基准在大多数任务上存在显著差距。我们已将TAPE公开发布(tape-benchmark.com),旨在促进鲁棒性语言模型的研究,使其能够在极少甚至无监督的情况下有效泛化至新任务。