17日前
STC:動画インスタンスセグメンテーションのための空間時系列対比学習
Zhengkai Jiang, Zhangxuan Gu, Jinlong Peng, Hang Zhou, Liang Liu, Yabiao Wang, Ying Tai, Chengjie Wang, Liqing Zhang

要約
動画インスタンスセグメンテーション(Video Instance Segmentation: VIS)は、動画において同時に分類、セグメンテーション、およびインスタンスの関連付けを行うタスクである。近年のVISアプローチは、この目標を達成するため、RoI関連の処理や3D畳み込みを含む複雑なパイプラインに依存している。これに対して、本研究では、インスタンスセグメンテーション手法であるCondInstをベースとし、追加のトラッキングヘッドを導入することで、単段階かつ効率的なVISフレームワークを提案する。インスタンス関連付けの精度を向上させるために、フレーム間でトラッキング埋め込みに対して新しい双方向時空間対比学習戦略を提案する。さらに、インスタンスごとの時系列一貫性を確保するためのスキームを導入し、時間的に整合性のある出力を実現する。YouTube-VIS-2019、YouTube-VIS-2021、およびOVIS-2021の各データセットにおける実験により、提案手法の有効性と効率性が検証された。本研究で提示するフレームワークが、他の多くのインスタンスレベルの動画関連付けタスクにおいて、シンプルかつ強力な代替手段として活用されることを期待している。