Command Palette
Search for a command to run...
CL-bench:コンテキスト学習のためのベンチマーク
CL-bench:コンテキスト学習のためのベンチマーク
概要
現在の言語モデル(LM)は、事前学習された知識を活用してプロンプトに対する推論を得意としている。しかし、現実世界のタスクははるかに複雑で文脈依存的である。モデルは、タスク固有の文脈から学習し、事前学習段階で習得した知識を超える新たな知識を活用して、推論を実行しタスクを解決しなければならない。このような能力を「文脈学習」と呼ぶ。これは人間が自然に備えている重要な能力であるが、これまでほとんど注目されてこなかった。本研究では、経験豊富な分野専門家によって作成された、500の複雑な文脈、1,899のタスク、31,607の検証基準(ルーブリック)から構成される実世界向けベンチマーク「CL-bench」を提案する。各タスクは、その解決に必要な新規コンテンツが対応する文脈内に含まれるように設計されており、CL-benchのタスクを解くには、モデルが新しいドメイン固有の知識、ルール体系、複雑な手順、あるいは実証データから導かれる法則など、事前学習段階では存在しない要素を文脈から学習する能力が必要となる。これは、主に情報の検索や読解理解を試す長文脈タスクや、指示や例示を通じて単純なタスクパターンを学習する「文脈内学習」(in-context learning)をはるかに超える。本研究では、10の最先端LMを評価した結果、モデルが平均して17.2%のタスクしか解けないことが明らかになった。最も性能の高いモデルであるGPT-5.1でも23.7%にとどまり、言語モデルが有効な文脈学習を実現できていないことが示された。これは、現実世界における複雑で文脈依存的なタスクに取り組む上で、大きな障壁となっている。CL-benchは、この根本的な能力を持つ言語モデルの構築に向けた一歩であり、モデルの知能を向上させ、実世界での応用を進める上で重要な意義を持つ。