17日前
時間的に安定した動画インスタンスセグメンテーションのためのフレーム間アテンションを用いたオブジェクト伝播
Anirudh S Chakravarthy, Won-Dong Jang, Zudi Lin, Donglai Wei, Song Bai, Hanspeter Pfister

要約
動画インスタンスセグメンテーションは、動画内のオブジェクトを検出・セグメンテーション・追跡することを目的としています。現在の手法は、画像レベルのセグメンテーションアルゴリズムを時間軸方向に拡張するアプローチを採用していますが、これにより時間的に一貫性のないマスクが生じます。本研究では、時間的安定性に起因するマスク品質の低下が性能のボトルネックであることを明らかにしました。この問題に着目し、欠落検出に起因する課題を緩和する動画インスタンスセグメンテーション手法を提案します。空間情報のみではこの問題を解決できないため、フレーム間のアテンションを活用して時間的文脈を捉えます。これにより、隣接フレームからのボックス予測を用いて、欠落したオブジェクトにネットワークが再び注目できるようになり、検出漏れを克服できます。本手法は、Mask R-CNNをバックボーンとして使用する従来の最先端手法を大きく上回り、YouTube-VISベンチマークにおいて36.0%のmAPを達成しました。さらに、本手法は完全にオンライン処理が可能であり、未来のフレームを必要としません。実装コードはGitHubにて公開されています:https://github.com/anirudh-chakravarthy/ObjProp。