3ヶ月前

YouTubeVOS Challenge 2021 1位受賞ソリューション:Video Instance Segmentation

Thuy C. Nguyen, Tuan N. Tang, Nam LH. Phan, Chuong H. Nguyen, Masayuki Yamazaki, Masao Yamanaka
YouTubeVOS Challenge 2021 1位受賞ソリューション:Video Instance Segmentation
要約

動画インスタンスセグメンテーション(Video Instance Segmentation: VIS)は、同時に検出、セグメンテーション、トラッキングを実行するマルチタスク問題である。画像セットの応用から拡張された動画データは、時間情報を追加的に含むため、適切に処理されれば、物体の運動を識別および予測する上で極めて有用となる。本研究では、これらのタスクが相互に学習できる統合型モデルを設計した。具体的には、隣接フレーム間における物体インスタンスマスクの時間的相関を活用するため、時間的相関インスタンスセグメンテーション(Temporally Correlated Instance Segmentation: TCIS)および双方向トラッキング(Bidirectional Tracking: BiTrack)の2つのモジュールを提案した。一方、動画データはフレーム間の重複によりしばしば冗長性を示す。我々の分析によれば、この問題はYoutubeVOS-VIS2021データセットにおいて特に顕著である。したがって、データ不足を補うため、マルチソースデータ(Multi-Source Data: MSD)学習メカニズムを提案した。これらの技術を「Bag of Tricks」と組み合わせることで、ベースラインモデルに比べてネットワーク性能が顕著に向上し、YoutubeVOS-VIS 2019および2021データセットにおいて、他の手法を大きく上回る性能を達成した。