HyperAIHyperAI

Command Palette

Search for a command to run...

細粒度視覚・言語理解における進捗の測定

Emanuele Bugliarello Laurent Sartran Aishwarya Agrawal Lisa Anne Hendricks Aida Nematzadeh

概要

ウェブ上の大規模な画像・テキストデータに対する事前学習は、視覚・言語(V&L)タスクの多数において急速な進展を促進してきたが、最近の研究では、事前学習モデルが画像内の関係性、動詞、数値などを認識するような「細粒度」の理解能力に欠けていることが示されている。この問題に対応するため、コミュニティ内では、こうした能力を評価するための新たなベンチマークやモデルの開発に注目が集まっている。この方向性における進展をより正確に理解し、定量的に評価するため、我々は4つの競合するV&Lモデルを4つの細粒度ベンチマーク上で評価した。分析の結果、X-VLM(Zengら、2022年)が他のベースラインモデルを一貫して上回ることが明らかになった。また、Webデータのスケーリングよりも、モデル構造の革新が性能に大きな影響を与えることが分かった。場合によっては、データ量の増加が性能を低下させる現象さえ観察された。さらにX-VLMの詳細な検証を通じて、細粒度スキルを学習する上で、新たな損失関数と豊富なデータソースの両方が極めて重要であることが示された。最後に、学習の動的挙動を検証したところ、特定のタスクでは性能が学習初期にピークに達するか、あるいは著しい変動を示し、収束しないことも明らかになった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています