Hierarchisches temporales Kontextlernen für kamera-basierte semantische Szenevervollständigung

Die kamera-basierte 3D semantische Szenevervollständigung (SSC) ist entscheidend für die Vorhersage komplexer 3D-Layouts mit begrenzten 2D-Bildbeobachtungen. Die bestehenden Hauptströmungen lösen dieses Problem im Allgemeinen, indem sie zeitliche Informationen durch grobe Stapelung historischer Frames ergänzen, um das aktuelle Frame zu vervollständigen. Diese einfache zeitliche Modellierung verringert unvermeidlich gültige Hinweise und erhöht die Lernschwierigkeit. Um dieses Problem anzugehen, präsentieren wir HTCL, ein neues Paradigma des hierarchischen Lernens zeitlicher Kontexte zur Verbesserung der kamera-basierten semantischen Szenevervollständigung. Die wesentliche Innovation dieser Arbeit besteht darin, das Lernen zeitlicher Kontexte in zwei hierarchische Schritte zu zerlegen: (a) die Messung der Cross-Frame-Affinität und (b) die affinitätsbasierte dynamische Verfeinerung. Zunächst trennen wir kritisch relevante Kontextinformationen von überflüssigen Daten, indem wir Musteraffinität mit skalenbewusster Isolation und mehreren unabhängigen Lernern für ein feingranuläres Modellierung der kontextuellen Korrespondenz einführen. Anschließend verfeinern wir die Featuresampling-Positionen anpassungsfähig, basierend auf anfänglich identifizierten Positionen mit hoher Affinität und ihren benachbarten relevanten Regionen, um unvollständige Beobachtungen dynamisch zu kompensieren. Unsere Methode rangiert auf dem SemanticKITTI-Benchmark an erster Stelle und übertreffen sogar LiDAR-basierte Methoden hinsichtlich des mIoU auf dem OpenOccupancy-Benchmark. Unser Code ist unter https://github.com/Arlo0o/HTCL verfügbar.