Command Palette
Search for a command to run...
大規模言語モデルにおける短文の事実性の測定
大規模言語モデルにおける短文の事実性の測定
Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus
Abstract
我々は、言語モデルが短い事実尋求型の質問に答える能力を評価するためのベンチマーク「SimpleQA」を提示する。本評価の設計において、我々は以下の2つの特性を重視した。第一に、SimpleQAは挑戦的である。これは、GPT-4の回答に対して敵対的に収集されたデータに基づいているためである。第二に、回答の採点が容易である。質問は、唯一かつ明確な正解が存在するように作成されているためである。SimpleQAにおける各回答は、「正解」「不正解」「未回答」のいずれかに分類される。理想的な振る舞いを示すモデルは、自身が正しい答えを確信している場合にのみ回答を試み、可能な限り多くの質問に対して正解を導くべきである。SimpleQAは、モデルが「自分が何を知っているか」を把握しているかどうかを測るシンプルかつターゲットを絞った評価であり、今後の先端モデルの世代にわたり、このベンチマークが有用な役割を果たすことを期待している。