HyperAIHyperAI

Command Palette

Search for a command to run...

AI モデル、存在しない画像の視覚的理解を偽装

スタンフォード大学の研究チームは、最新の AI モデルが実際には存在しない画像に対して、あたかも視覚的理解があるかのような詳細な回答を生成する「ミラージュ効果」を発見しました。この研究では、GPT-5 や Gemini 3 Pro などの最先端 AI モデルに対し、特定の画像に関する 20 のカテゴリーにわたる詳細な質問を行いましたが、画像は一切提示されませんでした。その結果、AI は画像がないことを認めず、ナンバープレートや病名など具体的な虚構の詳細を自信満に説明する傾向が平均 60% で見られました。 この現象は、従来の AI 評価ベンチマークに重大な欠陥があることを示唆しています。多くの評価システムは、回答の正解率が高いほど視覚的理解能力が高いとみなしますが、今回の実験では画像がなくてもテキストのパターンや文脈から推論して回答することで、高いスコアを獲得できることが明らかになりました。特に胸部 X 線画像に関するテストでは、視覚データを持たないテキスト専用モデルでさえ、トップクラスの AI や医師よりも高い正答率を示す結果となりました。これは、現在の評価が実際の視覚分析ではなく、テキスト的な推測に依存している可能性を浮き彫りにしています。 研究者たちは、この課題に対処するため「B-Clean」という新しい評価手法を提案しました。この手法は、画像情報を介さずに回答可能な質問をフィルタリングし、モデルが真に画像を理解しているかのみを検証するように設計されています。特に医療分野では、虚偽の診断結果が重大な結果を招く恐れがあるため、より厳密で安全な評価基準の導入が急務としています。今回の研究は、多言語・視覚モデルの評価基準の見直しと、実際の視覚入力に基づく出力の確保に向けて、さらなる検証と改善を必要とする重要な示唆を与えています。

関連リンク