2ヶ月前

階層的伝播における特徴の分離に関するビデオオブジェクトセグメンテーション

Zongxin Yang; Yi Yang
階層的伝播における特徴の分離に関するビデオオブジェクトセグメンテーション
要約

本論文は、半教師付きビデオオブジェクトセグメンテーション(VOS)のためのより効果的な階層的伝播手法の開発に焦点を当てています。ビジョントランスフォーマーを基盤として、最近開発された「トランスフォーマーによるオブジェクト関連付け(AOT)」アプローチは、VOSに階層的伝播を導入し、有望な結果を示しています。この階層的伝播は、過去フレームからの情報を徐々に現在のフレームへと伝播させ、現在のフレーム特徴量をオブジェクト非特異的からオブジェクト特異的へと変換します。しかし、オブジェクト特異的情報の増加は、深い伝播層でのオブジェクト非特異的な視覚情報の損失を避けられません。このような問題を解決し、視覚埋め込みの学習をさらに促進するために、本論文では「階層的伝播における特徴量分離(DeAOT)」アプローチを提案します。まず、DeAOTはオブジェクト非特異的およびオブジェクト特異的な埋め込みの階層的伝播を2つの独立した支流で処理することで分離します。次に、双方向伝播による追加計算量を補償するため、効率的なモジュールであるゲート付き伝播モジュール(Gated Propagation Module)を提案します。これは単一ヘッド注意機構を使用して慎重に設計されています。広範な実験により、DeAOTが精度と効率性においてAOTを大幅に上回ることが示されました。YouTube-VOSにおいては、DeAOTは22.4fpsで86.0%、53.4fpsで82.0%という性能を達成しました。テスト時の拡張なしでも、4つのベンチマークで新たな最先端性能が得られています。具体的にはYouTube-VOS (86.2%)、DAVIS 2017 (86.2%)、DAVIS 2016 (92.9%)、およびVOT 2020 (0.622)です。プロジェクトページ: https://github.com/z-x-yang/AOT

階層的伝播における特徴の分離に関するビデオオブジェクトセグメンテーション | 最新論文 | HyperAI超神経