11日前

ルールベースのヒューリスティクスがロシア語SuperGLUEタスクを解く際に示す非現実的な有効性

Tatyana Iazykova, Denis Kapelyushnik, Olga Bystrova, Andrey Kutuzov
ルールベースのヒューリスティクスがロシア語SuperGLUEタスクを解く際に示す非現実的な有効性
要約

SuperGLUEのようなリーダーボードは、現代の言語モデル同士を公正に比較するための標準的なベンチマークを提供するため、自然言語処理(NLP)分野における積極的な開発を促進する重要なインセンティブと見なされている。これらのリーダーボードは、世界最高のエンジニアリングチームおよびそのリソースを統合し、一般的な言語理解を実現するための一連のタスクに取り組ませてきた。また、これらのモデルの性能スコアは、しばしば人間の性能に近いか、あるいはそれを上回ると主張されている。このような結果は、ベンチマークデータセットに機械学習ベースの言語モデルが利用可能な統計的ヒント(statistical cues)が含まれていないかを、より徹底的に検証する必要性を促した。英語用のデータセットについては、しばしばアノテーションのアーティファクト(annotation artifacts)が存在することが示されており、これにより非常に単純なルールに基づくアプローチで特定のタスクを解決し、競争力のある順位を達成することが可能であることが明らかになっている。本論文では、ロシア語向けのSuperGLUE(RSG)——近年公開されたロシア語自然言語理解のためのベンチマークセットおよびリーダーボード——についても同様の分析を実施した。その結果、RSGのテストデータセットは浅いヒューリスティクス(shallow heuristics)に対して脆弱であることが示された。多くの場合、GPT-3やBERTといった著名な事前学習言語モデルの性能を上回る、あるいはそれと並ぶ結果を、非常に単純なルールに基づくアプローチが達成している。最も単純な説明として、RSGリーダーボードにおけるSOTA(最先端)モデルの性能の大部分は、こうした浅いヒューリスティクスを活用しているためであり、実際の言語理解とは無関係である可能性が高い。本研究では、これらのデータセットを改善するための具体的な提言を提示し、RSGリーダーボードがロシア語NLU分野における真の進展をより適切に反映するようになることを目指している。

ルールベースのヒューリスティクスがロシア語SuperGLUEタスクを解く際に示す非現実的な有効性 | 最新論文 | HyperAI超神経