Command Palette
Search for a command to run...
画素、パターン、しかし詩はなし:人間のように世界を見る
画素、パターン、しかし詩はなし:人間のように世界を見る
概要
マルチモーダル大規模言語モデル(MLLMs)において人間のような知覚と推論を実現することは、人工知能分野における中心的な課題の一つである。最近の研究は主にMLLMsの推論能力の向上に注力してきたが、根本的な問いは残っている。つまり、マルチモーダル大規模言語モデルは本当に人間のように世界を知覚できるのだろうか。本論文では、推論に焦点を当てた既存の研究とは異なり、知覚に焦点を移す。我々は推論専用のベンチマーキングを構築するのではなく、人間が直感的に処理できる合成画像を評価する知覚指向型のベンチマーキングとして、Turing Eye Test(TET)を導入する。TETは4つの診断タスクから構成され、MLLMsの性能を評価する。我々の調査結果は、人間にとって単純な知覚タスクにおいて、最先端のMLLMsが破綻的な失敗を示していることを示している。文脈内学習や言語バックボーンのトレーニング—従来のベンチマーキングで有効であった—は、本研究のタスクにおいて性能向上をもたらさない。一方、ビジョンタワーのファインチューニングは迅速な適応を可能にし、これは言語バックボーンの知識や推論能力ではなく、ビジョンタワーの一般化能力に対する課題を示唆している。これは、現行のMLLMsと人間の知覚との間にある重要なギャップである。本バージョンではTETの代表的なタスクのサブセットを公開するが、今後はより多様なタスクと方法を導入し、視覚の一般化能力を向上させる予定である。