HyperAIHyperAI

Command Palette

Search for a command to run...

Einsetzen von visionszentriertem multimodalem Fachwissen für die 3D-Objekterkennung

Linyan Huang Zhiqi Li Chonghao Sima Wenhai Wang Jingdong Wang Yu Qiao Hongyang Li

Zusammenfassung

Aktuelle Forschung konzentriert sich hauptsächlich darauf, die Genauigkeit von kamerabasierten 3D-Objekterkennern (Schüler) durch Wissensübertragung von LiDAR-basierten oder multimodalen Gegenstücken (Experten) zu verbessern. Allerdings behindern der bestehende Domänenunterschied zwischen LiDAR- und Kameradaten sowie die inhärente Inkompatibilität bei der zeitlichen Fusion die Wirksamkeit von distillationsbasierten Verbesserungen erheblich. Angeregt durch den Erfolg einmodaler Distillation entwickeln wir einen schülerfreundlichen Expertenmodell, das sich hauptsächlich auf Kameradaten stützt, gleichzeitig aber Leistungslevel erreicht, die mit jenen multimodaler Modelle vergleichbar sind. Hierzu stellen wir VCD vor – einen Rahmen, der die Leistung eines rein kamerabasierten Schülers verbessert, bestehend aus einem schülerfreundlichen multimodalen Experten sowie einer zeitlich fusionierungsorientierten Distillationsüberwachung. Der multimodale Experte VCD-E verwendet eine identische Architektur wie der kamerabasierte Schüler, um die Merkmalsdiskrepanz zu verringern, und nutzt LiDAR-Eingaben als Tiefenprior, um die 3D-Szene zu rekonstruieren, wodurch eine Leistung erzielt wird, die mit jener anderer heterogener multimodaler Experten vergleichbar ist. Zudem wird ein feinabgestimmtes, auf Trajektorien basierendes Distillationsmodul eingeführt, das jeweils die Bewegungsunsicherheit jedes Objekts in der Szene individuell korrigiert. Mit diesen Verbesserungen erreicht unser rein kamerabasierter Schüler VCD-A eine neue State-of-the-Art-Leistung auf dem nuScenes-Datensatz mit einem Score von 63,1 % NDS.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp