17日前
動画インスタンスセグメンテーションのための一般化枠組み
Miran Heo, Sukjun Hwang, Jeongseok Hyun, Hanjung Kim, Seoung Wug Oh, Joon-Young Lee, Seon Joo Kim

要約
長時間かつ複雑で隠蔽(オクルージョン)が生じる動画の処理は、近年、動画インスタンスセグメンテーション(VIS)分野における新たな課題として浮上している。しかしながら、既存の手法はこの課題に対処する上で限界を抱えている。本研究では、現在のアプローチにおける最大のボトルネックが、学習段階と推論段階の間に生じる不一致にあると主張する。このギャップを効果的に埋めるために、複雑なアーキテクチャの設計や追加の後処理を必要とせずに、困難なベンチマークにおいて最先端の性能を達成する汎用的なVISフレームワーク、GenVISを提案する。GenVISの主な貢献は、新しいターゲットラベル割り当て方式を用いたクエリベースの学習パイプラインを含む学習戦略にある。さらに、過去の状態から情報を効果的に取得するメモリ機構を導入している。この新しい視点——別々のフレームまたはクリップ間の関係性構築に注目——により、GenVISはオンラインおよびセミオンラインの両モードで柔軟に実行可能である。我々は、代表的なVISベンチマーク上で提案手法を評価し、YouTube-VIS 2019/2021/2022およびOccluded VIS(OVIS)において最先端の結果を達成した。特に、長時間VISベンチマーク(OVIS)において、ResNet-50バックボーンを用いて5.6 APの大幅な向上を実現した。コードは https://github.com/miranheo/GenVIS で公開されている。