17日前
RE-IMAGINE: 記号ベンチマーク合成による推論評価
Xu, Xinnuo ; Lawrence, Rachel ; Dubey, Kshitij ; Pandey, Atharva ; Ueno, Risa ; Falck, Fabian ; Nori, Aditya V. ; Sharma, Rahul ; Sharma, Amit ; Gonzalez, Javier

要約
最近の大型言語モデル(LLM)は、推論ベンチマークにおいて高い精度を報告しています。しかし、観測された結果が真の推論から生じているのか、それとも訓練データセットの統計的な想起から来ているのかはまだ明確ではありません。ピアール(2009)による因果階層(ラダー・オブ・カウゼーション)とその3つのレベル(関連性、介入、反実仮想)に着想を得て、本論文ではRE-IMAGINEというフレームワークを導入します。このフレームワークは、LLMにおける推論能力の階層を特徴付け、階層内の異なるレベルで問題変異を自動生成するパイプラインも提供します。中間的な記号表現を変更することで、RE-IMAGINEは単なる暗記だけでは解決できない任意の数の問題を生成できます。さらに、このフレームワークは汎用性が高く、数学、コード、論理などさまざまな推論領域に適用可能です。我々は4つの広く使用されているベンチマークでこのフレームワークを実証し、いくつかのLLMファミリーについて評価を行いました。その結果、モデルに対して問題変異を問い合わせた際には性能低下が観察されました。これらの評価は過去の性能に対する統計的な想起への依存度を示唆しており、推論階層全体でのスキル対象とするさらなる研究への道を開いています。