PointBeV: Ein sparsamer Ansatz für BeV-Vorhersagen

Vogelperspektivische Darstellungen (BeV) sind in Anwendungen des autonomen Fahrens als faktisch geteilter Raum hervorgetreten und bieten einen einheitlichen Raum für die Fusion von Sensordaten sowie Unterstützung für verschiedene nachgelagerte Aufgaben. Konventionelle Modelle verwenden jedoch Gitter mit fester Auflösung und Reichweite und geraten aufgrund der gleichmäßigen Ressourcenverteilung über alle Zellen in rechnerische Ineffizienzen. Um dieses Problem zu lösen, schlagen wir PointBeV vor, ein neues sparsames BeV-Segmentierungsmodell, das auf dünn besetzten BeV-Zellen anstelle dichter Gitter operiert. Dieser Ansatz ermöglicht eine präzise Kontrolle über den Speicherverbrauch, wodurch langfristige zeitliche Kontexte genutzt werden können und plattformen mit begrenztem Speicherplatz unterstützt werden. PointBeV setzt eine effiziente Zwei-Pass-Strategie für das Training ein, die es ermöglicht, Berechnungen gezielt auf Regionen von Interesse zu konzentrieren. Bei der Inferenz kann es unter verschiedenen Speicher-/Leistungskompromissen eingesetzt werden und sich flexibel neuen spezifischen Anwendungsfällen anpassen. PointBeV erzielt Stand-of-the-Art-Ergebnisse im nuScenes-Datensatz für die Segmentierung von Fahrzeugen, Fußgängern und Fahrbahnen, wobei es trotz ausschließlich mit dünn besetzten Signalen trainiert wurde, eine überlegene Leistung sowohl in statischen als auch in zeitlichen Szenarien zeigt. Wir werden unseren Code zusammen mit zwei neuen effizienten Modulen veröffentlichen, die in der Architektur verwendet werden: Sparse Feature Pulling (dünn besetzte Merkmalsextraktion), das zur effektiven Extraktion von Merkmalen aus Bildern in BeV entwickelt wurde, und Submanifold Attention (Untermannigfaltigkeitsaufmerksamkeit), das effizientes zeitliches Modellieren ermöglicht. Unser Code ist unter https://github.com/valeoai/PointBeV verfügbar.