InvPT: Invertierter Pyramiden-Multi-Task-Transformer für dichte Szeneverstehen

Die Mehrfachaufgabe der dichten Szeneverstehung ist ein prosperierendes Forschungsgebiet, das eine gleichzeitige Wahrnehmung und Schlussfolgerung für eine Reihe von korrelierten Aufgaben mit pixelgenauer Vorhersage erfordert. Die meisten existierenden Arbeiten stoßen aufgrund der intensiven Nutzung von Faltungsoperationen an erhebliche Grenzen bei der Modellierung lokaler Aspekte, während die Lernprozesse und Inferenz in einem globalen räumlichen Kontext und im Mehrfachaufgabenkontext für dieses Problem entscheidend sind. In dieser Arbeit schlagen wir einen neuen end-to-end invertierten Pyramiden-Mehrfach-Aufgaben-Transformer (InvPT) vor, um die gleichzeitige Modellierung von räumlichen Positionen und mehreren Aufgaben in einem einheitlichen Framework durchzuführen. Nach unserem besten Wissen ist dies die erste Arbeit, die sich damit beschäftigt, eine Transformer-Struktur für die Mehrfach-Aufgaben-dichte Vorhersage zur Szeneverstehung zu entwerfen. Darüber hinaus wird weitgehend gezeigt, dass eine höhere räumliche Auflösung für dichte Vorhersagen außerordentlich vorteilhaft ist. Es stellt jedoch eine große Herausforderung dar, bestehende Transformer mit höheren Auflösungen tiefer zu gestalten, aufgrund der enormen Komplexität bei großen räumlichen Größen. Der InvPT präsentiert einen effizienten UP-Transformer-Block, um Mehrfach-Aufgaben-Feature-Interaktionen bei allmählich erhöhter Auflösung zu lernen. Dieser Block integriert auch effektive Selbst-Aufmerksamkeits-Nachrichtenübermittlung und Mehrebenen-Feature-Aggregation, um spezifische Aufgaben-Vorhersagen in hoher Auflösung zu generieren. Unsere Methode erreicht überlegene Mehrfach-Aufgabenergebnisse sowohl auf den Datensätzen NYUD-v2 als auch PASCAL-Context und übertreffen signifikant die bisherigen Stand der Technik. Der Code ist unter https://github.com/prismformore/InvPT verfügbar.