くだらない比率

Crapness Ratio は、大規模言語モデル (LLM) によって提供される、ナンセンスまたは無効な情報である回答の割合を評価するために使用される指標です。この概念は、フィールズ賞受賞者でケンブリッジ大学の研究責任者であるティモシー・ガワーズ氏によって 2024 年に提案されました。彼は GPT-4o を使用してどうぶつの森パズルを解こうとしたときにこのベンチマークを思いつきました。これは、LLM によって与えられた答えの合計と正解の比率です。最も単純な質問に関して GPT-4o のエラーを指摘しても、Claude 3.5 は影響を受けません。この現象は、大規模な言語モデルが本当に推論と計画を行うことができるかどうかという疑問を引き起こします。この比率を通じて、モデル出力のナンセンスの度合いを定量化することができ、それによってモデルのパフォーマンスと改善の方向性を評価できます。