2ヶ月前
RANet: ランキング注意ネットワークによる高速ビデオオブジェクトセグメンテーション
Ziqin Wang; Jun Xu; Li Liu; Fan Zhu; Ling Shao

要約
オンライン学習(OL)技術は、半教師付きビデオオブジェクトセグメンテーション(VOS)手法の性能を大幅に向上させましたが、OLの巨大な時間コストが実用性を大きく制限しています。マッチングベースと伝播ベースの手法は、OL技術を避けることで高速に動作しますが、マッチングの誤りやドリフト問題により精度が最適でないという制約があります。本論文では、リアルタイムかつ非常に高精度なランキングアテンションネットワーク(RANet)を開発しました。具体的には、マッチングベースと伝播ベースの手法の洞察を統合するために、エンコーダー-デコーダーフレームワークを使用してピクセルレベルの類似性とセグメンテーションをエンドツーエンドで学習します。類似度マップをより効果的に利用するため、新しいランキングアテンションモジュールを提案し、これによりこれらのマップを自動的にランク付けおよび選択して細かいVOS性能を達成します。DAVIS-16およびDAVIS-17データセットでの実験結果から、私たちのRANetは最良の速度-精度トレードオフを達成しており、例えばDAVIS-16ではフレームあたり33ミリ秒でJ&F=85.5%となっています。OLを使用することで、私たちのRANetはDAVIS-16でJ&F=87.1%に達し、最先端のVOS手法を超える性能を示しました。コードはhttps://github.com/Storife/RANet で入手可能です。