HyperAIHyperAI
vor 16 Tagen

Gemeinsame 2D-3D Multi-Task-Lernverfahren auf Cityscapes-3D: 3D-Detektion, Segmentierung und Tiefenschätzung

Hanrong Ye, Dan Xu
Gemeinsame 2D-3D Multi-Task-Lernverfahren auf Cityscapes-3D: 3D-Detektion, Segmentierung und Tiefenschätzung
Abstract

Dieser Bericht dient als ergänzendes Dokument für TaskPrompter und beschreibt dessen Implementierung auf einer neuen gemeinsamen 2D-3D-Mehraufgaben-Lern-Benchmark-Aufgabe, die auf dem Cityscapes-3D-Datensatz basiert. TaskPrompter präsentiert einen innovativen Mehraufgaben-Prompting-Framework, der die Lernziele (i) aufgabenunabhängiger Repräsentationen, (ii) aufgaben-spezifischer Repräsentationen und (iii) inter-aufgabenübergreifender Interaktionen vereint – im Gegensatz zu früheren Ansätzen, bei denen diese Lernziele in unterschiedliche Netzwerkmodule aufgeteilt waren. Dieser integrierte Ansatz verringert nicht nur den Bedarf an aufwendiger, empirischer Architekturgestaltung, sondern verbessert auch signifikant die Fähigkeit des Mehraufgaben-Netzwerks zur Repräsentationslernung, da die gesamte Modellkapazität gleichzeitig zur Optimierung der drei Ziele eingesetzt wird. TaskPrompter führt einen neuen Mehraufgaben-Benchmark auf Basis des Cityscapes-3D-Datensatzes ein, bei dem das Mehraufgaben-Modell gleichzeitig Vorhersagen für monokulare 3D-Fahrzeugdetektion, semantische Segmentierung und monokulare Tiefenschätzung erzeugen muss. Diese Aufgaben sind entscheidend für eine integrierte 2D-3D-Wahrnehmung visueller Szenen, insbesondere im Kontext der Entwicklung autonomer Fahrzeugsysteme. Auf diesem anspruchsvollen Benchmark zeigt unser Mehraufgaben-Modell eine herausragende Leistung im Vergleich zu state-of-the-art-Methoden für Einzelaufgaben und erreicht neue SOTA-Ergebnisse bei den anspruchsvollen Aufgaben der 3D-Detektion und Tiefenschätzung.

Gemeinsame 2D-3D Multi-Task-Lernverfahren auf Cityscapes-3D: 3D-Detektion, Segmentierung und Tiefenschätzung | Neueste Forschungsarbeiten | HyperAI