11日前

HTML: ハイブリッド時系列スケールマルチモーダル学習フレームワークによる参照動画オブジェクトセグメンテーション

{Yu Qiao, Xiaojun Chang, Lina Yao, Zhihui Li, Yali Wang, Mingfei Han}
HTML: ハイブリッド時系列スケールマルチモーダル学習フレームワークによる参照動画オブジェクトセグメンテーション
要約

参照動画オブジェクトセグメンテーション(Referring Video Object Segmentation: RVOS)とは、与えられた動画から、そのオブジェクトに関するテキスト記述に従って特定のオブジェクトインスタンスをセグメンテーションするタスクである。しかし、オープンワールド環境では、オブジェクトの記述内容が多様であり、長さも柔軟に変化する傾向がある。このため、RVOSの主な課題となるのは、異なるオブジェクトに対するさまざまな記述が、動画内での時間的スケール(時系列スケール)に応じて異なり得る点であり、これに対して、従来の手法ではフレームサンプリングの単一ストライドに依存しているため、この時間的スケールの違いが無視されがちである。本研究では、この問題に対処するため、異なる時間スケールから階層的にマルチモーダル相互作用を学習することで、言語的特徴と視覚的特徴を効果的に統合し、動画内のコアとなるオブジェクト意味を発見できる、簡潔なハイブリッド時間スケールマルチモーダル学習(Hybrid Temporal-scale Multimodal Learning: HTML)フレームワークを提案する。具体的には、異なる時間スケール間で言語クエリが視覚特徴と動的に相互作用する新たなスケール間マルチモーダル認識モジュールを導入することで、異なるスケール間での動画文脈の伝達を可能とし、複雑なオブジェクトの混同を効果的に低減する。さらに、広く用いられるベンチマークデータセット(Ref-Youtube-VOS、Ref-DAVIS17、A2D-Sentences、JHMDB-Sentences)において、包括的な実験を実施した結果、本手法HTMLはすべてのデータセットで最先端の性能を達成した。

HTML: ハイブリッド時系列スケールマルチモーダル学習フレームワークによる参照動画オブジェクトセグメンテーション | 最新論文 | HyperAI超神経