3日前
序章:長文脈にわたる全体的理解と推論を要するベンチマーク
Mo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou

要約
我々は、オリジナルの物語の正統な物語構成と、登場人物の前日譚(前伝)が一貫しているかどうかを判断するというタスクを通じて、長文脈理解を評価するためのベンチマーク「PRELUDE」を提案する。本タスクは、既存のベンチマークと比較して、より高度な全体的把握能力と深い推論能力を要求する。なぜなら、前日譚はオリジナルの物語に含まれないため、その妥当性を評価するには、間接的に関連する情報の検索と統合が通常必要となるからである。実証的な分析によれば、88%の事例で物語の複数の部分からの証拠が必要となる。実験結果から、本タスクの難しさが明らかになった。最新の大規模言語モデル(LLM)を用いた文脈内学習、RAG(Retrieval-Augmented Generation)、ドメイン内訓練、および商用のDeepResearchサービスも、人間の性能に対して15%以上も劣っていることが示された。さらに実施した人間による検証研究から、モデルは正解を導くものの、その推論プロセスに誤りが含まれる傾向が明らかとなり、推論の正確性において人間と30%以上の差が生じていることが判明した。これらの結果は、長文脈理解および推論能力のさらなる向上の余地が大きく残されていることを強く示唆している。