2ヶ月前
ViP-DeepLab: 深度認識を用いたビデオパノプティックセグメンテーションによる視覚認識の学習
Siyuan Qiao; Yukun Zhu; Hartwig Adam; Alan Yuille; Liang-Chieh Chen

要約
本論文では、ViP-DeepLabという統一モデルを提案し、視覚における longstanding かつ困難な逆投影問題に取り組むことを目指しています。この問題は、パースペクティブ画像シーケンスから点群を復元するとともに、各点に対してインスタンスレベルの意味解釈を与えるものとしてモデル化されます。この問題を解決するには、視覚モデルが各3D点の空間位置、意味クラス、および時間的に一貫したインスタンスラベルを予測する必要があります。ViP-DeepLabは単眼深度推定とビデオパノプティックセグメンテーションを同時に行うことでこの課題にアプローチします。私たちはこの統合タスクをDepth-aware Video Panoptic Segmentation(深度認識ビデオパノプティックセグメンテーション)と名付け、その評価指標として新しいメトリクスを提案し、2つの派生データセットも提供します。これらのデータセットと評価コードは公開されます。個別のサブタスクにおいても、ViP-DeepLabは最先端の結果を達成しており、Cityscapes-VPSで5.1% VPQ(Video Panoptic Quality)の改善を示し、KITTI単眼深度推定ベンチマークで1位となり、またKITTI MOTS歩行者検出でも1位となっています。これらのデータセットと評価コードは公開されています。