16日前

動画オブジェクトセグメンテーションのための共同誘導的および転移的学習

Yunyao Mao, Ning Wang, Wengang Zhou, Houqiang Li
動画オブジェクトセグメンテーションのための共同誘導的および転移的学習
要約

半教師あり動画オブジェクトセグメンテーションは、最初のフレームでのマスクアノテーションのみを用いて、動画シーケンス内の対象オブジェクトをセグメンテーションするタスクである。限られた情報しか利用できないため、極めて困難な課題である。従来の最先端手法の多くは、マッチングベースの伝達的推論(transductive reasoning)またはオンライン誘導学習(online inductive learning)を採用している。しかし、これらは類似するインスタンスに対して十分な識別性を発揮できないか、あるいは空間時間的情報を十分に活用できていないという課題を抱えている。本研究では、伝達的学習と誘導的学習を統合したフレームワークを提案し、両者の補完性を活かして、精度とロバスト性に優れた動画オブジェクトセグメンテーションを実現することを目的とする。提案手法は、二つの機能ブランチから構成される。伝達ブランチは軽量なトランスフォーマー構造を採用し、豊かな空間時間的特徴を統合する。一方、誘導ブランチはオンライン誘導学習により、識別性の高い対象情報を得る。この二つの異質なブランチを接続するために、それぞれのブランチに適した対象事前情報(target prior)を学習するための二出力ラベルエンコーダーを導入している。さらに、生成されたマスク符号化情報が互いに分離(disentangled)されるように制約を課すことにより、両者の補完性をよりよく保持する。多数の代表的なベンチマークにおける広範な実験結果から、合成学習データを必要とせずに、本手法が複数の新記録を達成することが示された。コードは https://github.com/maoyunyao/JOINT にて公開されている。

動画オブジェクトセグメンテーションのための共同誘導的および転移的学習 | 最新論文 | HyperAI超神経