敵対的GLUE:言語モデルのロバスト性評価のためのマルチタスクベンチマーク

大規模な事前学習済み言語モデルは、自然言語理解(NLU)タスクの多岐にわたる分野で著しい成功を収めており、場合によっては人間の性能を上回ることさえある。しかし、最近の研究では、巧妙に設計されたテキストアドバーシャル例(adversarial examples)によってこれらのモデルの堅牢性(robustness)が脅かされる可能性が指摘されている。これまでにいくつかの個別のデータセットがモデルの堅牢性を評価する目的で提案されてきたが、原理的かつ包括的なベンチマークはまだ存在しない。本論文では、現代の大規模言語モデルがさまざまなタイプのアドバーシャル攻撃に対して抱える脆弱性を定量的かつ包括的に探求・評価するための新しいマルチタスクベンチマーク「Adversarial GLUE(AdvGLUE)」を提案する。特に、GLUEタスクに14種類のテキストアドバーシャル攻撃手法を体系的に適用してAdvGLUEを構築し、信頼性の高いアノテーションを人間による検証によって確認している。本研究の主な成果は以下の通りである。(i) 既存の多くアドバーシャル攻撃アルゴリズムは、無効または曖昧なアドバーシャル例を生成しやすい傾向にあり、その約90%が元の意味を変更するか、人間のアノテーターを誤解させるものであった。そのため、高品質なベンチマークを構築するため、慎重なフィルタリングプロセスを実施した。(ii) 実験で検証したすべての言語モデルおよび堅牢学習手法は、AdvGLUE上で著しく低い性能を示し、通常の精度(benign accuracy)と比べて大幅に遅れをとった。本研究が、より隠蔽性が高く意味を保持する新しいアドバーシャル攻撃の開発を促進し、高度なアドバーシャル攻撃に対抗可能な新しい堅牢な言語モデルの設計を推進することを期待する。AdvGLUEは以下のURLから公開されている:https://adversarialglue.github.io。