HyperAIHyperAI

Command Palette

Search for a command to run...

Time Will Tell: Neue Perspektiven und eine Baseline für die zeitliche Multi-View-3D-Objekterkennung

Jinhyung Park Chenfeng Xu Shijia Yang Kurt Keutzer Kris Kitani Masayoshi Tomizuka Wei Zhan

Zusammenfassung

Obwohl neuere, kamerabasierte Methoden zur 3D-Detektion mehrere Zeitschritte nutzen, beschränkt sich die verwendete Historie erheblich und hemmt somit die Verbesserung der Objektwahrnehmung durch zeitliche Fusion. Da wir beobachten, dass die bisherigen Ansätze zur Fusion mehrerer Bildframes lediglich eine Form der zeitlichen Stereoabgleichung darstellen, stellen wir fest, dass die Leistung durch die Wechselwirkung von zwei Faktoren beeinträchtigt wird: erstens durch die geringe Granularität der Abgleichauflösung und zweitens durch die suboptimalen Mehransichtskonfigurationen, die durch die begrenzte Nutzung der Historie entstehen. Unsere theoretische und empirische Analyse zeigt, dass die optimale zeitliche Distanz zwischen Ansichten für verschiedene Pixel und Tiefenwerte erheblich variiert, was eine Fusion vieler Zeitschritte über eine lange Historie erfordert. Aufbauend auf unseren Erkenntnissen schlagen wir vor, einen Cost-Volumen aus einer langen Historie von Bildbeobachtungen zu generieren, wodurch die grobe, jedoch effiziente Abgleichauflösung durch eine optimiertere Mehransichtsabgleichkonfiguration kompensiert wird. Zudem ergänzen wir die für die langfristige, grobe Abgleichung verwendeten monokularen Tiefenabschätzungen durch eine kurzfristige, fein granulare Abgleichung und stellen fest, dass die lang- und kurzfristige zeitliche Fusion sich äußerst ergänzend verhalten. Ohne die Effizienz zu beeinträchtigen, erreicht unser Ansatz auf dem nuScenes-Datensatz eine neue State-of-the-Art-Leistung, erzielt Platz eins auf dem Testset und übertrifft die bisher beste Methode um 5,2 % mAP und 3,7 % NDS auf dem Validierungsset. Der Quellcode wird unter \href\href{https://github.com/Divadi/SOLOFusion}{hier}\href veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Time Will Tell: Neue Perspektiven und eine Baseline für die zeitliche Multi-View-3D-Objekterkennung | Paper | HyperAI