TBP-Former: Lernen einer zeitlichen Vogelperspektive-Pyramide für die gemeinsame Wahrnehmung und Vorhersage im visuellen autonomen Fahren

Vision-zentrierte gemeinsame Wahrnehmung und Vorhersage (Perception and Prediction, PnP) ist zu einem aufstrebenden Trend in der Forschung zum autonomen Fahren geworden. Sie prognostiziert die zukünftigen Zustände der Verkehrsteilnehmer in der umliegenden Umgebung aus rohen RGB-Bildern. Allerdings stellt es weiterhin eine wichtige Herausforderung dar, aufgrund unvermeidlicher geometrischer Verzerrungen Merkmale, die aus mehreren Kameraperspektiven und Zeitstempeln gewonnen wurden, zu synchronisieren und diese räumlich-zeitlichen Merkmale weiter zu nutzen. Um dieses Problem anzugehen, schlagen wir einen zeitlichen Vogelperspektiv-Pyramidentransformer (Temporal Bird's-Eye-View Pyramid Transformer, TBP-Former) für vision-zentrierte PnP vor, der zwei neuartige Konzepte beinhaltet. Erstens wird ein pose-synchronisierter BEV-Codierer vorgeschlagen, um rohe Bildeingaben mit beliebiger Kameraposition zu beliebiger Zeit in einen gemeinsamen und synchronisierten Vogelperspektivraum (Bird's-Eye-View Space, BEV-Space) abzubilden, um eine bessere räumlich-zeitliche Synchronisation zu erreichen. Zweitens wird ein räumlich-zeitlicher Pyramidentransformer eingeführt, um umfassend multi-skalierte BEV-Merkmale zu extrahieren und zukünftige BEV-Zustände unter Nutzung von räumlich-zeitlichen A-priori-Wissen zu prognostizieren. Ausführliche Experimente mit dem nuScenes-Datensatz zeigen, dass unser vorgeschlagenes Framework insgesamt alle standesüblichen vision-basierten Vorhersagemethoden übertrifft.