HyperAIHyperAI
vor 11 Tagen

Einsetzen von visionszentriertem multimodalem Fachwissen für die 3D-Objekterkennung

Linyan Huang, Zhiqi Li, Chonghao Sima, Wenhai Wang, Jingdong Wang, Yu Qiao, Hongyang Li
Einsetzen von visionszentriertem multimodalem Fachwissen für die 3D-Objekterkennung
Abstract

Aktuelle Forschung konzentriert sich hauptsächlich darauf, die Genauigkeit von kamerabasierten 3D-Objekterkennern (Schüler) durch Wissensübertragung von LiDAR-basierten oder multimodalen Gegenstücken (Experten) zu verbessern. Allerdings behindern der bestehende Domänenunterschied zwischen LiDAR- und Kameradaten sowie die inhärente Inkompatibilität bei der zeitlichen Fusion die Wirksamkeit von distillationsbasierten Verbesserungen erheblich. Angeregt durch den Erfolg einmodaler Distillation entwickeln wir einen schülerfreundlichen Expertenmodell, das sich hauptsächlich auf Kameradaten stützt, gleichzeitig aber Leistungslevel erreicht, die mit jenen multimodaler Modelle vergleichbar sind. Hierzu stellen wir VCD vor – einen Rahmen, der die Leistung eines rein kamerabasierten Schülers verbessert, bestehend aus einem schülerfreundlichen multimodalen Experten sowie einer zeitlich fusionierungsorientierten Distillationsüberwachung. Der multimodale Experte VCD-E verwendet eine identische Architektur wie der kamerabasierte Schüler, um die Merkmalsdiskrepanz zu verringern, und nutzt LiDAR-Eingaben als Tiefenprior, um die 3D-Szene zu rekonstruieren, wodurch eine Leistung erzielt wird, die mit jener anderer heterogener multimodaler Experten vergleichbar ist. Zudem wird ein feinabgestimmtes, auf Trajektorien basierendes Distillationsmodul eingeführt, das jeweils die Bewegungsunsicherheit jedes Objekts in der Szene individuell korrigiert. Mit diesen Verbesserungen erreicht unser rein kamerabasierter Schüler VCD-A eine neue State-of-the-Art-Leistung auf dem nuScenes-Datensatz mit einem Score von 63,1 % NDS.

Einsetzen von visionszentriertem multimodalem Fachwissen für die 3D-Objekterkennung | Neueste Forschungsarbeiten | HyperAI