2ヶ月前
BURST: 動画における物体認識、セグメンテーションおよび追跡の統一ベンチマーク
Athar, Ali ; Luiten, Jonathon ; Voigtlaender, Paul ; Khurana, Tarasha ; Dave, Achal ; Leibe, Bastian ; Ramanan, Deva

要約
既存の複数のベンチマークは、ビデオ内の物体追跡とセグメンテーションを扱っています(例:Video Object Segmentation (VOS)、Multi-Object Tracking and Segmentation (MOTS))。しかし、異なるベンチマークデータセットや評価指標(例:J&F、mAP、sMOTSA)を使用しているため、これらの間での相互作用はほとんどありません。その結果、発表された研究は特定のベンチマークを対象としており、互いに容易に比較することはできません。私たちは、複数のタスクに対応できる一般化された手法の開発には、これらの研究サブコミュニティ間でより強い連携が必要であると考えています。本論文では、この連携を促進するために BURST というデータセットを提案します。このデータセットには高品質な物体マスクが含まれる数千もの多様なビデオが収録されており、物体追跡とセグメンテーションに関連する6つのタスクを含む関連ベンチマークも提供しています。すべてのタスクは同じデータと比較可能な評価指標を使用して評価されるため、研究者がこれらを統合的に考慮し、異なるタスク間で異なる手法から得られる知識をより効果的に共有することができます。さらに、私たちはすべてのタスクに対するいくつかのベースラインを示し、あるタスク向けのアプローチが他のタスクにも適用可能であり、その性能差が定量的かつ説明可能であることを示しています。データセットの注釈と評価コードは以下のURLで公開されています:https://github.com/Ali2500/BURST-benchmark。