
要約
本論文の目的は、動画中の複数の移動物体を発見、追跡、セグメンテーションするモデルを開発することである。以下の4つの貢献を行った:深度順層表現を持つ物体中心のセグメンテーションモデルを導入した。これは、各クエリベクトルが動画全体で物体とその層を指定する光学フローを取り込むトランスフォーマー構造の変種を使用して実装されている。このモデルは効果的に複数の移動物体を発見し、相互に遮蔽される物体の処理も可能である。層合成を通じて生成される多物体合成訓練データ用のスケーラブルなパイプラインを導入した。このパイプラインは提案されたモデルの学習に使用され、手間のかかるアノテーションの必要性を大幅に削減し、Sim2Real(シミュレーションから現実への)汎化をサポートする。役立つ消去研究を行い、モデルが物体恒常性と時間的な形状の一貫性を学習できること、そして非模態セグメンテーションマスクを予測できることが示された。合成データのみで学習したモデルについて、標準的なビデオセグメンテーションベンチマーク(DAVIS, MoCA, SegTrack, FBMS-59)での評価を行い、手動アノテーションに依存しない既存手法の中で最先端の性能を達成した。テスト時の適応により、さらなる性能向上が観察された。以上のように、本研究では複数の移動物体に対する効果的なセグメンテーションと追跡を行うための新しいアプローチを開発し、その有効性と優れた性能を示している。