HLE は Humanity's Last Exam の略で、幅広い分野の最先端の知識をカバーするように設計されたマルチモーダル ベンチマーク テストであり、Center for AI Safety and Scale AI によって 2025 年にリリースされる予定です。は "人類最後の試験”。このデータセットは、世界中のさまざまな科目の専門家によって共同開発されたもので、数学、人文科学、自然科学などの分野の多肢選択式や短答式の質問を含む、数十の科目をカバーする 3,000 問の質問が含まれており、自動採点に適しています。