Jenseits des Gesichtsfeldes: Verbesserung der Szenen-Sichtbarkeit und -Wahrnehmung mit Clip-Rekurrentem Transformer

Visionsensoren werden weit verbreitet in Fahrzeugen, Robotern und Straßenrandinfrastrukturen eingesetzt. Aufgrund von Einschränkungen in Hardwarekosten und Systemgröße ist jedoch das Kamerasichtfeld (Field-of-View, FoV) oft begrenzt und kann möglicherweise nicht ausreichende Abdeckung bieten. Dennoch ist es aus räumlich-zeitlicher Perspektive möglich, Informationen jenseits des physischen Sichtfeldes der Kamera aus vergangenen Videostreams zu gewinnen. In dieser Arbeit schlagen wir den Konzept des Online-Videoinpaintings für autonome Fahrzeuge vor, um das Sichtfeld zu erweitern und damit die Szenensichtbarkeit, Wahrnehmung und System sicherheit zu verbessern. Um dies zu erreichen, stellen wir die FlowLens-Architektur vor, die explizit optischen Fluss verwendet und implizit einen neuen clip-rekurrenten Transformer zur Featurepropagation einsetzt. FlowLens bietet zwei wesentliche Merkmale: 1) FlowLens enthält einen neu entwickelten Clip-Rekurrenten Hub mit 3D-getrennter Kreuzaufmerksamkeit (3D-Decoupled Cross Attention, DDCA), um globale Informationen über Zeit schrittweise zu verarbeiten. 2) Es integriert ein mehrzweigiges Mix-Fusion-Feed-Forward-Netzwerk (MixF3N), um den präzisen räumlichen Fluss lokaler Features zu verbessern. Um das Training und die Bewertung zu erleichtern, leiten wir den KITTI360-Datensatz mit verschiedenen FoV-Masken ab, der sowohl Außen- als auch Innen-FoV-Erweiterungsszenarien abdeckt. Wir führen sowohl quantitative Bewertungen als auch qualitative Vergleiche der Semantik jenseits des FoVs und der Objekterkennung jenseits des FoVs bei verschiedenen Modellen durch. Wir zeigen auf, dass die Verwendung von FlowLens zur Rekonstruktion unsichtbarer Szenen sogar die Wahrnehmung innerhalb des Sichtfeldes durch Bereitstellung verlässlicher semantischer Kontexte verbessert. Ausführliche Experimente und Nutzerstudien im Bereich Offline- und Online-Videoinpainting sowie jenseits-FoV-Wahrnehmungsaufgaben belegen, dass FlowLens eine Spitzenleistung erzielt. Der Quellcode und der Datensatz sind öffentlich zugänglich unter https://github.com/MasterHow/FlowLens.