17日前

対照学習を用いた視覚および視覚言語追跡の統合

Yinchao Ma, Yuyang Tang, Wenfei Yang, Tianzhu Zhang, Jinpeng Zhang, Mengxue Kang
対照学習を用いた視覚および視覚言語追跡の統合
要約

単一オブジェクト追跡は、初期バウンディングボックス(BBOX)、自然言語(NL)、あるいは両方(NL+BBOX)といった異なるモダリティの参照情報に基づいて、動画シーケンス内のターゲットオブジェクトを特定することを目的としている。しかし、異なるモダリティ間にはギャップが存在するため、従来の多数の追跡手法は単一または部分的な参照設定に特化しており、特定のモダリティに過剰に適合してしまう傾向がある。これに対して、本研究では同一のパラメータでBBOX、NL、NL+BBOXのすべての参照設定を同時に処理できる統一型追跡器「UVLTrack」を提案する。本手法は以下の利点を有する。第一に、視覚的特徴と言語的特徴の統合学習を可能にするモダリティ非依存の特徴抽出器を設計し、視覚的特徴と言語的特徴を統一された意味空間に整合させるためのマルチモーダルコントラスティブ損失を提案した。第二に、参照情報に応じて適応的に動作するモダリティ適応型ボックスヘッドを導入することで、動的な動画コンテキストから変化する状況特徴を効果的に抽出し、対照的な手法によりターゲットを明確に識別する能力を獲得した。これにより、異なる参照設定においても堅牢な性能を発揮できる。広範な実験結果から、UVLTrackは7つの視覚追跡データセット、3つの視覚言語追跡データセット、および3つの視覚接地(visual grounding)データセットにおいて優れた性能を達成した。コードとモデルは、https://github.com/OpenSpaceAI/UVLTrack にてオープンソースとして公開される予定である。