HyperAIHyperAI

Command Palette

Search for a command to run...

PolyphonicFormer: Einheitliches Abfrage-Lernen für tiefenbewusste Video-Panoramasegmentierung

Haobo Yuan Xiangtai Li Yibo Yang Guangliang Cheng Jing Zhang Yunhai Tong Lefei Zhang Dacheng Tao

Zusammenfassung

Die tiefenbewusste Video-Panoptische Segmentierung (DVPS) ist ein neues, anspruchsvolles Sehproblem, das darauf abzielt, die panoptische Segmentierung und die Tiefenschätzung in einem Video gleichzeitig vorherzusagen. Frühere Arbeiten lösen diese Aufgabe, indem sie eine bestehende Methode der panoptischen Segmentierung um einen zusätzlichen dichten Tiefenprediktor und einen Instanzverfolgungskopf erweitern. Allerdings wird die Beziehung zwischen Tiefe und panoptischer Segmentierung nicht ausreichend untersucht – die einfache Kombination bestehender Methoden führt zu Wettbewerb und erfordert eine sorgfältige Gewichtsbalance. In dieser Arbeit stellen wir PolyphonicFormer vor, einen Vision Transformer, der diese Teilprobleme unter der DVPS-Aufgabe vereint und zu robusteren Ergebnissen führt. Unser zentrales Erkenntnis ist, dass die Tiefe mit der panoptischen Segmentierung durch unser neu vorgeschlagenes Paradigma zur Vorhersage von instanzbasierten Tiefenkarten mithilfe von Objektanfragen harmonisiert werden kann. Anschließend wird die Beziehung zwischen den beiden Aufgaben durch abfragebasiertes Lernen erforscht. Durch Experimente zeigen wir die Vorteile unserer Designentscheidungen sowohl in Bezug auf die Tiefenschätzung als auch auf die panoptische Segmentierung. Da jede Sache-Anfrage auch instanzspezifische Informationen kodiert, ist es natürlich, Verfolgung direkt durch Erscheinungslernen durchzuführen. Unsere Methode erzielt Stand-der-Technik-Ergebnisse auf zwei DVPS-Datensätzen (Semantic KITTI, Cityscapes) und rangiert an erster Stelle im ICCV-2021 BMTT Challenge-Videotrack mit Tiefenschätzung. Der Quellcode ist unter https://github.com/HarborYuan/PolyphonicFormer verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp