HyperAI
Command Palette
Search for a command to run...
既知の未知数
大規模言語モデルはしばしば「幻覚」と呼ばれる誤った発言を生成します。Known Unknowns タスクは、この失敗モードを探るために、モデルが質問の答えが未知であることを正しく識別できるかどうかをテストすることを目的としています。このタスクの目標は、モデルが誤った予測を好むのではなく、未知の真実に直面したときに不確実性を認められるかどうかを評価することです。これにより、モデルの信頼性と透明性が向上し、実世界での信凭性が高まります。
データなし
このタスクで利用可能なベンチマークデータがありません