8ヶ月前

概要

深度認識ビデオパノプティックセグメンテーション（DVPS）は、ビデオ内でパノプティックセグメンテーションと深さを同時に予測することを目指す新しい挑戦的な視覚問題です。従来の研究では、既存のパノプティックセグメンテーション手法に追加の密集した深さ予測とインスタンストラッキングヘッドを組み込むことでこの課題に対処していました。しかし、深さとパノプティックセグメンテーションの関係は十分に探究されておらず、単純に既存の手法を組み合わせると競合が生じ、重みバランスを慎重に調整する必要があります。本論文では、これらのサブタスクをDVPSタスクのもとに統一し、より堅牢な結果を得るためのビジョントランスフォーマーであるPolyphonicFormerを提案します。私たちの主な洞察は、物体クエリを使用してインスタンスレベルの深さマップを予測するという新規範式により、深さがパノプティックセグメンテーションと調和できるということです。その後、クエリベース学習を通じて両者の関係性を探求します。実験から、私たちの設計が深さ推定およびパノプティックセグメンテーション両面で利点があることを示しています。各物体クエリがインスタンスごとの情報をエンコードしているため、外観学習によって直接トラッキングを行うことが自然です。当方法は2つのDVPSデータセット（Semantic KITTI, Cityscapes）において最先端の結果を達成しており、ICCV-2021 BMTTチャレンジのビデオ+深さトラックで1位となっています。コードはhttps://github.com/HarborYuan/PolyphonicFormer で公開されています。

ソースPDF