Command Palette
Search for a command to run...
CL-bench コンテキスト学習評価ベンチマーク
CL-benchは、大規模言語モデルのコンテキスト学習能力を評価するためのベンチマークデータセットであり、テンセントのHunyuanチームが復旦大学と共同で2026年にリリースしました。関連する研究論文は以下の通りです。 CL-bench: コンテキスト学習のベンチマーク目的は、モデルが事前にトレーニングされた知識に依存せずに、特定のコンテキストから新しいルール、概念、またはドメイン知識を学習し、それを後続のタスクに適用できるかどうかをテストすることです。
このデータセットには、1,899の具体的なタスクをカバーする500の複雑なコンテキストシナリオが含まれており、31,607のきめ細かな評価基準が提供されています。各タスクは、ルール推論、ドメイン知識学習、複雑な指示理解といった様々なコンテキスト学習シナリオを網羅するマルチターン対話形式で構成されており、コンテキストにおける新しい情報の理解、要約、伝達におけるモデルの能力を評価します。