11日前
これはデータセットではない:大規模な否定ベンチマークによる大規模言語モデルの挑戦
Iker García-Ferrero, Begoña Altuna, Javier Álvez, Itziar Gonzalez-Dios, German Rigau

要約
大規模言語モデル(LLM)は、文法知識の一定程度を習得し、一般化能力を有しているように見えるものの、自然言語処理における重要なステップである否定の解釈には失敗している。本研究では、LLMが否定を理解する上で性能が劣る理由を明らかにすることを目的とする。そこで、常識的知識に関する記述文約40万文からなる大規模な半自動生成データセットを提案する。このデータセットでは、否定が文中に現れる割合が全体の約2/3に上り、各文は真または偽のいずれかとなる。本研究では、このデータセットを現在利用可能な最大規模のオープンソースLLMを用いてゼロショット設定で評価し、モデルの一般化および推論能力を分析した。また、一部のモデルに対して否定文を用いたファインチューニングを行い、否定理解が学習可能かどうかを検証した。その結果、LLMは肯定文の分類において優れた性能を発揮する一方で、否定文に対する処理では困難を示し、否定の本質的理解に欠けることが明らかになった。多くの場合、モデルは表面的な手がかりに依存している。ファインチューニングにより否定文の処理性能は向上するものの、否定の一般化能力の欠如は依然として顕著であり、LLMが否定理解および一般化において依然として抱える課題が浮き彫りになった。本研究で用いたデータセットおよびコードは公開されている。