2ヶ月前

VLPrompt: ビジョン言語プロンプティングによるパノプティックシーングラフ生成

Zijian Zhou; Miaojing Shi; Holger Caesar
VLPrompt: ビジョン言語プロンプティングによるパノプティックシーングラフ生成
要約

パノプティック・シーングラフ生成(PSG)は、物体のセグメンテーションと物体間の関係予測を同時に実行することで、包括的な画像理解を目指しています。しかし、関係におけるロングテール問題により、実世界での応用では満足のいく結果が得られていません。従来の手法は主に視覚情報に依存するか、物体や関係の名前などの限定的な言語情報を利用しており、言語情報の有用性を見落としています。大規模言語モデル(LLM)の最近の進歩を活用し、特に稀な関係に対して言語情報を用いて関係予測を支援することを提案します。この目的のために、ビジョン-言語プロンプティング(VLPrompt)モデルを提案しました。このモデルは画像から視覚情報を取得し、大規模言語モデルから言語情報を取得します。その後、注意機構に基づくプロンプター・ネットワークを通じて精密な関係予測を達成します。我々の広範な実験結果は、VLPromptがPSGデータセットにおいて従来の最先端手法を大幅に上回ることを示しており、言語情報を取り込むことによる効果性と関係のロングテール問題の緩和が証明されています。コードは \url{https://github.com/franciszzj/TP-SIS} で公開されています。

VLPrompt: ビジョン言語プロンプティングによるパノプティックシーングラフ生成 | 最新論文 | HyperAI超神経