2ヶ月前
自己監督下の動画オブジェクトセグメンテーションにおける変形アテンションの蒸留学習
Quang-Trung Truong; Duc Thanh Nguyen; Binh-Son Hua; Sai-Kit Yeung

要約
ビデオオブジェクトセグメンテーションは、コンピュータビジョンにおける基本的な研究課題です。最近の手法では、多くの場合、ビデオシーケンスからオブジェクト表現を学習するために注意メカニズムが適用されています。しかし、ビデオデータの時間的な変化により、注意マップがビデオフレーム間で関心のあるオブジェクトと十分に一致しないことがあり、長期的なビデオ処理において累積誤差が発生する可能性があります。さらに、既存の手法は複雑なアーキテクチャを使用しており、高い計算量を必要とするため、低消費電力デバイスへのビデオオブジェクトセグメンテーションの統合が制限されています。これらの問題に対処するため、我々は可変注意の学習に基づく自己監督型ビデオオブジェクトセグメンテーションの新しい手法を提案します。具体的には、時間的な変化に効果的に適応できる軽量なアーキテクチャを開発しました。これは可変注意メカニズムによって可能となりました。このメカニズムでは、注意モジュール内のビデオシーケンスの記憶を捉えるキーと値がフレーム間で柔軟に更新される位置を持っています。これにより、学習されたオブジェクト表現は空間的および時間的な次元に対して適応的になります。我々は新しい知識蒸留パラダイムを通じて提案したアーキテクチャを自己監督型で訓練します。このパラダイムでは、可変注意マップが蒸留損失に統合されます。DAVIS 2016/2017 および YouTube-VOS 2018/2019 を含むベンチマークデータセット上で、我々の手法を定性的および定量的に評価し、既存の手法との比較を行いました。実験結果は、本手法の優越性を証明しており、最先端の性能と最適なメモリ使用量を達成しています。