17日前

SeqFormer:動的変換器による動画インスタンスセグメンテーション

Junfeng Wu, Yi Jiang, Song Bai, Wenqing Zhang, Xiang Bai
SeqFormer:動的変換器による動画インスタンスセグメンテーション
要約

本研究では、動画インスタンスセグメンテーションのためのSeqFormerを提案する。SeqFormerは、視覚変換器(Vision Transformer)の原理に従い、動画フレーム間のインスタンス関係をモデル化する。しかし、我々は単独のインスタンスクエリのみで動画内の時間的インスタンス系列を捉えることが可能である一方で、アテンション機構は各フレームごとに独立して実行されるべきであることを観察した。この目的を達成するために、SeqFormerは各フレーム内でインスタンスを特定し、時系列情報を集約することで、動画全体レベルのインスタンスに対する強力な表現を学習する。この表現を用いて、各フレーム上でマスクシーケンスを動的に予測する。トラッキングブランチや後処理を必要とせず、自然にインスタンストラッキングを実現できる。YouTube-VISデータセットにおいて、SeqFormerはResNet-50バックボーンを用いて47.4 AP、ResNet-101バックボーンを用いて49.0 APを達成し、装飾的な追加技術なしに、従来の最先端性能をそれぞれ4.6および4.4ポイント以上上回った。さらに、最近提案されたSwin変換器と統合した場合、59.3の高いAPを達成した。本研究では、SeqFormerが動画インスタンスセグメンテーション分野における強力なベースラインとして今後の研究を促進するとともに、より堅牢で正確かつ洗練されたモデルによってこの分野の進展を図ることを期待する。コードはhttps://github.com/wjf5203/SeqFormerにて公開されている。