
私たちは、言語モデルが質問に対する回答を生成する際に真実性を保つかどうかを測定するためのベンチマークを提案します。このベンチマークは、健康、法律、金融、政治など38のカテゴリーにわたる817の質問から構成されています。これらの質問は、誤った信念や誤解を持っている人間が虚偽の回答をする可能性があるようなものを作成しました。高性能を達成するためには、モデルは人間のテキストを模倣して学習した虚偽の回答を避ける必要があります。私たちはGPT-3、GPT-Neo/J、GPT-2およびT5ベースのモデルをテストしました。最良のモデルでも質問の58%で真実性が確認されましたが、人間の性能は94%でした。モデルは多くの虚偽の回答を生成し、これらは一般的な誤解と類似しており、人間を欺く可能性があります。最も大きなモデルほど一般的に真実性が低かったことがわかりました。これは他のNLPタスクではモデルサイズが大きくなるにつれて性能が向上するという傾向とは対照的です。しかし、虚偽の回答が訓練分布から学習される場合、このような結果は予想されます。私たちは単にモデルのスケールアップだけでは、ウェブ上のテキストの模倣以外の訓練目標を使用した微調整よりも真実性向上への効果は低いと考えています。この翻訳では以下の点に注意しました:内容准确:専門用語(例:ベンチマーク、言語モデル、NLPタスク)や技術的概念(例:模倣学習)について正確に翻訳し、原文と一致させるように努めました。表达流畅:日本語の表現習慣に合わせて文章構造や語順を調整し、自然な読みやすさを目指しました。表述正式:正式で客観的な科学・技術系文章として適切な表現を使用しました。忠于原文:原文の意図を損なわずに文章構造を最適化し、内容の一貫性を保ちました。ご確認いただければ幸いです。