HyperAI超神経
6日前

GPT-4oは視覚をどの程度理解しているのか?標準的なコンピュータビジョンタスクにおけるマルチモーダル基礎モデルの評価

Rahul Ramachandran; Ali Garjani; Roman Bachmann; Andrei Atanov; Oğuzhan Fatih Kar; Amir Zamir
GPT-4oは視覚をどの程度理解しているのか?標準的なコンピュータビジョンタスクにおけるマルチモーダル基礎モデルの評価
要約

多モーダル基盤モデル(GPT-4o、o4-mini、Gemini 1.5 Pro、Gemini 2.0 Flash、Claude 3.5 Sonnet、Qwen2-VL、Llama 3.2)は最近著しい進歩を遂げていますが、これらのモデルが視覚理解においてどの位置に立っているのかは明確ではありません。本論文では、既存のデータセット(例:COCO、ImageNetおよびそのバリエーションなど)を使用して、一般的な多モーダル基盤モデルの標準的なコンピュータビジョンタスク(セマンティックセグメンテーション、オブジェクト検出、画像分類、深度と表面法線予測)における性能をベンチマーク評価します。この評価を行う上で主な課題は以下の通りです:1) 多くのモデルはテキスト出力のために訓練されており、セグメントや3Dジオメトリなどの多様な領域を直接表現することはできません。2) 複数の先進的なモデルはプロプライエタリであり、APIレベルでのみアクセス可能で、つまり重みへのアクセスがないため適応することは困難です。これらの課題に対処するために、プロンプト連鎖を通じて標準的なビジョンタスクを同等のテキストプロンプト可能なAPI互換タスクに翻訳し、標準化されたベンチマーク評価フレームワークを作成しました。我々の観察結果は以下の通りです:1) モデル群はどのタスクにおいても最先端の専門家モデルには及ばないことが確認されました。しかし、2) 彼らは尊敬すべき一般主義者であり、これは主に画像-テキストベースのタスクで訓練されていると考えられるため特に注目に値します。3) セマンティックタスクでは幾何学的タスクよりも優れたパフォーマンスを示しています。4) プロンプト連鎖技術がパフォーマンスに影響を与える一方で、より高性能なモデルほどプロンプト変動に対する感度が低いことがわかりました。5) GPT-4oは非推論型モデルの中で最も優れており、6つのタスク中4つのトップポジションを獲得しました。6) 推論型モデル(例:o3)は幾何学的タスクにおいて改善が見られました。7) 最新のGPT-4oのようなネイティブ画像生成機能を持つモデルの初步分析では、幻覚や空間的ずれなどの特異性が示されています。以上のように翻訳いたしました。ご確認ください。