
パノプティックセグメンテーションは、以前の意味セグメンテーションとインスタンスセグメンテーションタスクを統合することにより、視覚認識タスクの新しい基準となっています。本論文では、このタスクの新しいビデオ拡張版であるビデオパノプティックセグメンテーション(video panoptic segmentation)について提案し、その研究を行います。この新しいタスクには、一貫したパノプティックセグメンテーションを生成するとともに、ビデオフレーム間でのインスタンスIDの関連付けが求められます。この新たな研究を活性化させるために、2種類のビデオパノプティックデータセットを提示します。1つ目は、大規模なピクセルアノテーションを活用するために、合成VIPERデータセットをビデオパノプティック形式に再編成したものです。2つ目は、Cityscapes val. セットに対して時間的な拡張を行い、新しいビデオパノプティックアノテーション(Cityscapes-VPS)を提供するものです。さらに、我々は新たなビデオパノプティックセグメンテーションネットワーク(VPSNet)を提案します。このネットワークは、物体クラス、バウンディングボックス、マスク、インスタンスID追跡、および意味セグメンテーションをビデオフレーム内で同時予測します。このタスクに適切な評価指標を提供するため、ビデオパノプティック品質(VPQ: Video Panoptic Quality)指標を提案し、当該手法といくつかのベースライン手法を評価しました。実験結果は提示された2つのデータセットの有効性を示しています。Cityscapesにおける画像PQ(Panoptic Quality)で最先端の結果を得ており、またCityscapes-VPSとVIPERデータセットにおけるVPQでも最先端の結果を得ています。これらのデータセットとコードは公開されています。