6ヶ月前

自然言語処理

ベンチマーク

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Ekaterina Taktasheva Tatiana Shavrina Alena Fenogenova Denis Shevelev Nadezhda Katricheva Maria Tikhonova Albina Akhmetgareeva Oleg Zinkevich Anastasiia Bashmakova Svetlana Iordanskaia

概要

ゼロショットおよびフェイショット学習における最近の進展は、多様な研究および実用的応用において有望な可能性を示している。しかし、この急速に発展している分野は、英語以外の言語に対する標準化された評価セットを欠いており、英語圏中心の枠組みを超えた進展を阻害している。この研究課題に対応するため、本研究では、ロシア語を対象にした6つのより複雑な自然言語理解（NLU）タスクを含む新しいベンチマーク「TAPE（Text Attack and Perturbation Evaluation）」を提案する。TAPEは、マルチホップ推論、倫理的コンセプト、論理的および常識的知識をカバーしており、体系的なゼロショットおよびフェイショットNLU評価を目的として設計されている。具体的には、(i) 言語的特徴に基づく敵対的攻撃および摂動による堅牢性分析、および (ii) 細分化されたサブポピュレーションを用いた解釈の深化を実現している。自己回帰型ベースラインの詳細な評価結果から、単純な綴りに基づく摂動が性能に最も大きな影響を与える一方で、入力の言い換え（paraphrasing）は比較的小さな影響にとどまることが明らかになった。同時に、多数のタスクにおいてニューラルモデルと人間のベースラインの間には顕著な性能ギャップが確認された。本研究では、少ないまたは全くない教師信号のもとで新しいタスクに一般化可能な堅牢な言語モデルの研究を促進するため、TAPEを公開（tape-benchmark.com）する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

自然言語処理

ベンチマーク

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Ekaterina Taktasheva Tatiana Shavrina Alena Fenogenova Denis Shevelev Nadezhda Katricheva Maria Tikhonova Albina Akhmetgareeva Oleg Zinkevich Anastasiia Bashmakova Svetlana Iordanskaia

概要

ゼロショットおよびフェイショット学習における最近の進展は、多様な研究および実用的応用において有望な可能性を示している。しかし、この急速に発展している分野は、英語以外の言語に対する標準化された評価セットを欠いており、英語圏中心の枠組みを超えた進展を阻害している。この研究課題に対応するため、本研究では、ロシア語を対象にした6つのより複雑な自然言語理解（NLU）タスクを含む新しいベンチマーク「TAPE（Text Attack and Perturbation Evaluation）」を提案する。TAPEは、マルチホップ推論、倫理的コンセプト、論理的および常識的知識をカバーしており、体系的なゼロショットおよびフェイショットNLU評価を目的として設計されている。具体的には、(i) 言語的特徴に基づく敵対的攻撃および摂動による堅牢性分析、および (ii) 細分化されたサブポピュレーションを用いた解釈の深化を実現している。自己回帰型ベースラインの詳細な評価結果から、単純な綴りに基づく摂動が性能に最も大きな影響を与える一方で、入力の言い換え（paraphrasing）は比較的小さな影響にとどまることが明らかになった。同時に、多数のタスクにおいてニューラルモデルと人間のベースラインの間には顕著な性能ギャップが確認された。本研究では、少ないまたは全くない教師信号のもとで新しいタスクに一般化可能な堅牢な言語モデルの研究を促進するため、TAPEを公開（tape-benchmark.com）する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

TAPE：Few-shotロシア語理解能力の評価 | 記事 | HyperAI超神経