2ヶ月前

ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーション

Rongkun Zheng; Lu Qi; Xi Chen; Yi Wang; Kun Wang; Yu Qiao; Hengshuang Zhao
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーション
要約

最近のビデオ推論セグメンテーション(VRS)における取り組みでは、大規模言語モデル(LLMs)と知覚モデルを統合し、テキスト指示により物体を局在化および追跡する方法が提案され、単純なシナリオにおいてはやや満足できる結果が得られています。しかし、長時間にわたる複数の物体、急速な動き、重い遮蔽物などがあるより現実的なシーンでは、ユーザーからのクエリに基づいて物体を識別および推論することが困難でした。本研究では、これらの制限の根本原因を分析し、ViLLa: 大規模言語モデルを使用したビデオ推論セグメンテーションを提案します。特に、ViLLaは以下の主要な革新によってこれらの課題に対処しています:(1) コンテキスト合成器により、動画のコンテキストとユーザーの意図を動的にエンコードして正確な推論を行い、複雑なクエリにおける曖昧性を解消します。(2) 階層的な時間同期器により、局所的および全体的な時間スケールで多物体間の相互作用をモデル化することで、複雑な時間的状況における多物体間の相互作用を分離します。さらに、長時間の動画を効率的に処理するために、ViLLaは (3) キーセグメントサンプラーを取り入れています。これにより長時間の動画が冗長性が少なくなるように短いが意味的に濃密なセグメントに適応的に分割されます。また、この未開拓分野での研究促進のために、異なる複雑なシナリオを持つVRSベンチマーク「VideoReasonSeg」を作成しました。我々のモデルは VideoReasonSeg, Ref-YouTube-VOS, Ref-DAVIS17, MeViS, および ReVOS において優れた最先端の結果を示しており、定量的および定性的実験を通じて多モーダルLLMのビデオ推論セグメンテーション能力が効果的に向上していることが確認されています。コードとデータセットは https://github.com/rkzheng99/ViLLa から入手可能です。

ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーション | 最新論文 | HyperAI超神経