11日前

事前学習されたビジョンおよび言語モデルへの構造的表現の統合:シーングラフを用いた手法

Roei Herzig, Alon Mendelson, Leonid Karlinsky, Assaf Arbelle, Rogerio Feris, Trevor Darrell, Amir Globerson
事前学習されたビジョンおよび言語モデルへの構造的表現の統合:シーングラフを用いた手法
要約

視覚・言語モデル(VLMs)は、さまざまなタスクにおいて顕著なゼロショット(ZS)性能を示している。しかし、最近の研究では、最良のVLMsですら、物体の属性や関係、動作状態といった構成的シーン理解の側面を十分に捉えることが困難であることが明らかになっている。一方で、シーングラフ(SGs)のような構造化アノテーションを取得することは、時間とコストがかかり、大規模に活用するには現実的ではない。そこで本研究では、小さなSGデータセットが、事前学習済みVLMsの構造的理解能力を向上させるために十分な情報を提供できるかを検討する。我々は、視覚的およびテキスト的表現の両方に構造化情報を組み込むコンポーネントを統合することで、SGsからの学習によってVLMsの性能を向上させられることを示した。視覚側では、SG情報を予測するように訓練された画像トランスフォーマーに特別な「SGコンポーネント」を導入し、テキスト側では、シーンのさまざまな構成的側面を強調する細粒度のキャプションをSGsから生成する。本手法により、複数のVLデータセットにおいて、いくつかの代表的なVLMsの性能が向上した一方で、ZS能力の低下は限定的であり、大きな影響はなかった。

事前学習されたビジョンおよび言語モデルへの構造的表現の統合:シーングラフを用いた手法 | 最新論文 | HyperAI超神経