11日前

細粒度視覚・言語理解における進捗の測定

Emanuele Bugliarello, Laurent Sartran, Aishwarya Agrawal, Lisa Anne Hendricks, Aida Nematzadeh

要約

ウェブ上の大規模な画像・テキストデータに対する事前学習は、視覚・言語（V&L）タスクの多数において急速な進展を促進してきたが、最近の研究では、事前学習モデルが画像内の関係性、動詞、数値などを認識するような「細粒度」の理解能力に欠けていることが示されている。この問題に対応するため、コミュニティ内では、こうした能力を評価するための新たなベンチマークやモデルの開発に注目が集まっている。この方向性における進展をより正確に理解し、定量的に評価するため、我々は4つの競合するV&Lモデルを4つの細粒度ベンチマーク上で評価した。分析の結果、X-VLM（Zengら、2022年）が他のベースラインモデルを一貫して上回ることが明らかになった。また、Webデータのスケーリングよりも、モデル構造の革新が性能に大きな影響を与えることが分かった。場合によっては、データ量の増加が性能を低下させる現象さえ観察された。さらにX-VLMの詳細な検証を通じて、細粒度スキルを学習する上で、新たな損失関数と豊富なデータソースの両方が極めて重要であることが示された。最後に、学習の動的挙動を検証したところ、特定のタスクでは性能が学習初期にピークに達するか、あるいは著しい変動を示し、収束しないことも明らかになった。