PolyphonicFormer: Einheitliches Abfrage-Lernen für tiefenbewusste Video-Panoramasegmentierung

Die tiefenbewusste Video-Panoptische Segmentierung (DVPS) ist ein neues, anspruchsvolles Sehproblem, das darauf abzielt, die panoptische Segmentierung und die Tiefenschätzung in einem Video gleichzeitig vorherzusagen. Frühere Arbeiten lösen diese Aufgabe, indem sie eine bestehende Methode der panoptischen Segmentierung um einen zusätzlichen dichten Tiefenprediktor und einen Instanzverfolgungskopf erweitern. Allerdings wird die Beziehung zwischen Tiefe und panoptischer Segmentierung nicht ausreichend untersucht – die einfache Kombination bestehender Methoden führt zu Wettbewerb und erfordert eine sorgfältige Gewichtsbalance. In dieser Arbeit stellen wir PolyphonicFormer vor, einen Vision Transformer, der diese Teilprobleme unter der DVPS-Aufgabe vereint und zu robusteren Ergebnissen führt. Unser zentrales Erkenntnis ist, dass die Tiefe mit der panoptischen Segmentierung durch unser neu vorgeschlagenes Paradigma zur Vorhersage von instanzbasierten Tiefenkarten mithilfe von Objektanfragen harmonisiert werden kann. Anschließend wird die Beziehung zwischen den beiden Aufgaben durch abfragebasiertes Lernen erforscht. Durch Experimente zeigen wir die Vorteile unserer Designentscheidungen sowohl in Bezug auf die Tiefenschätzung als auch auf die panoptische Segmentierung. Da jede Sache-Anfrage auch instanzspezifische Informationen kodiert, ist es natürlich, Verfolgung direkt durch Erscheinungslernen durchzuführen. Unsere Methode erzielt Stand-der-Technik-Ergebnisse auf zwei DVPS-Datensätzen (Semantic KITTI, Cityscapes) und rangiert an erster Stelle im ICCV-2021 BMTT Challenge-Videotrack mit Tiefenschätzung. Der Quellcode ist unter https://github.com/HarborYuan/PolyphonicFormer verfügbar.