2ヶ月前
VISA: 大規模言語モデルを用いた動画オブジェクトセグメンテーションの推論
Cilin Yan; Haochen Wang; Shilin Yan; Xiaolong Jiang; Yao Hu; Guoliang Kang; Weidi Xie; Efstratios Gavves

要約
既存のビデオオブジェクトセグメンテーション(VOS)は、カテゴリ、マスク、または短いフレーズなどの明示的なユーザ指示に依存しており、世界の知識を用いて複雑なビデオセグメンテーションを行う能力が制限されています。本論文では、新しいタスクであるリーズニングビデオオブジェクトセグメンテーション(ReasonVOS)を導入します。このタスクは、世界の知識とビデオコンテキストに基づく複雑な推論能力を必要とする暗黙的なテキストクエリに応じて、一連のセグメンテーションマスクを生成することを目指しています。これは構造化された環境理解やオブジェクト中心の相互作用において重要であり、体現AIの発展にとって不可欠です。ReasonVOSに対処するために、VISA(ビデオベースの大規模言語モデルによる指示型セグメンテーションアシスタント)を導入します。VISAは、マルチモーダルLLMの世界の知識推論機能を活用しながら、マスクデコーダーを使用してビデオ内のオブジェクトをセグメンテーションおよびトラッキングする能力を持っています。さらに、35,074件の指示-マスクシーケンスペアからなる1,042本の多様なビデオから構成される包括的なベンチマークを確立しました。このベンチマークは、ReasonVOSモデルの指示調整と評価のために、複雑な世界の知識推論をセグメンテーションタスクに組み込んでいます。8つのデータセットでの実験結果は、VISAがビデオおよび画像領域における複雑な推論セグメンテーションと単純な参照セグメンテーション両方で効果的であることを示しています。コードとデータセットはhttps://github.com/cilinyan/VISAで公開されています。