Erinnern Sie sich noch ... die Zukunft? Schwach-zu-Stark-Verallgemeinerung in der 3D-Objekterkennung

Diese Arbeit präsentiert eine neuartige Methode für die 3D-Objektdetektion basierend auf LiDAR-Daten und adressiert dabei zentrale Herausforderungen im Feld: Sparsität und Verdeckung. Unser Ansatz nutzt zeitliche Punktwolkenfolgen, um Frames zu generieren, die umfassende Ansichten von Objekten aus mehreren Winkeln liefern. Um die Herausforderung der Echtzeit-Generierung dieser Frames zu bewältigen, setzen wir Knowledge Distillation im Rahmen eines Teacher-Student-Modells ein, wodurch das Student-Modell die fortschrittliche Wahrnehmungsfähigkeit des Teacher nachahmen kann. Wir haben erstmals die Anwendung von Weak-to-Strong-Generalisierung in der Computer Vision etabliert, indem wir unser Teacher-Modell auf bereicherten, objektvollständigen Datensätzen trainiert haben. In dieser Demonstration zeigen wir die außergewöhnliche Qualität der von dem X-Ray-Teacher auf objektvollständigen Frames erzeugten Labels und verdeutlichen, wie unsere Methode dessen Wissen zur Verbesserung von 3D-Objektdetektionsmodellen nutzt.