Command Palette
Search for a command to run...
事前学習されたテキストから動画への変換Diffusionモデルを用いた参照動画オブジェクトセグメンテーションの探索
事前学習されたテキストから動画への変換Diffusionモデルを用いた参照動画オブジェクトセグメンテーションの探索
Zixin Zhu Xuelu Feng Dongdong Chen Junsong Yuan Chunming Qiao Gang Hua
概要
本稿では、事前学習済みのテキストから動画への変換(T2V)拡散モデルから得られる視覚的表現が、動画理解タスクにどのように寄与するかを検討する。我々は、事前学習済みの生成的T2Vモデルから学習された潜在表現が豊かな意味情報を保持し、時間的整合性のある対応関係を内包していると仮定する。この仮説は、従来の「参照動画オブジェクトセグメンテーション(R-VOS)」タスクを通じて検証される。本研究では、固定された事前学習済みT2Vモデルを基盤として、特化された構成要素を組み込んだ新たなフレームワーク「VD-IT」を提案する。具体的には、VD-ITはテキスト情報を条件入力として用いることで、時間軸にわたる意味的一貫性を確保し、正確な時間的インスタンスマッチングを実現する。さらに、画像トークンを補助的なテキスト入力として導入し、特徴表現を豊かにすることで、詳細かつ微細なマスクの生成を可能にする。また、従来のガウスノイズの使用に代わり、追加のノイズ予測モジュールを用いて動画固有のノイズを予測する手法を提案する。これにより、特徴の忠実性が維持され、セグメンテーション品質が向上する。広範な実験の結果、固定された生成的T2V拡散モデルが、一般的に用いられる動画バックボーン(例:Video Swin Transformer)と異なり、識別的画像・動画事前学習タスクで学習されたモデルとは異なり、意味的整合性と時間的一貫性をより良好に維持する潜在能力を有していることが明らかになった。既存の標準ベンチマーク上での評価において、VD-ITは多くの既存の最先端手法を上回る高い性能を達成した。コードは以下のURLで公開されている:https://github.com/buxiangzhiren/VD-IT。