Command Palette
Search for a command to run...
VMLoc: Variational Fusion für datenbasierte multimodale Kamerapositionsermittlung
VMLoc: Variational Fusion für datenbasierte multimodale Kamerapositionsermittlung
Kaichen Zhou Changhao Chen Bing Wang Muhamad Risqi U. Saputra Niki Trigoni Andrew Markham
Zusammenfassung
Neuere, lernbasierte Ansätze haben beeindruckende Ergebnisse im Bereich der Einzelschuss-Kamerakalibrierung erzielt. Allerdings sind die optimale Fusionsstrategie mehrerer Modalitäten (z. B. Bild und Tiefeninformation) sowie die Bewältigung von beeinträchtigten oder fehlenden Eingabedaten weniger gut untersucht. Insbesondere stellen wir fest, dass bisherige Ansätze zur tiefen Fusionsintegration nicht signifikant besser abschneiden als Modelle, die lediglich eine einzige Modality nutzen. Wir vermuten, dass dies darauf zurückzuführen ist, dass herkömmliche Ansätze zur Fusionsintegration im Merkmalsraum – beispielsweise durch Addition oder Verkettung – die unterschiedlichen Stärken jeder Modality nicht berücksichtigen. Um dies zu adressieren, schlagen wir einen end-to-end-Framework namens VMLoc vor, der verschiedene Sensoreingaben durch eine variational Product-of-Experts (PoE)-Fusion in einen gemeinsamen latenten Raum überführt, gefolgt von einer auf Aufmerksamkeit basierenden Fusionsstrategie. Im Gegensatz zu früheren multimodalen variationalen Ansätzen, die die Zielfunktion eines herkömmlichen variationalen Autoencoders direkt übernehmen, zeigen wir, wie die Kamerakalibrierung präzise durch eine verzerrungsfreie Zielfunktion basierend auf Importance Weighting geschätzt werden kann. Unser Modell wird umfassend an RGB-D-Datensätzen evaluiert, wobei die Ergebnisse die Wirksamkeit unseres Ansatzes belegen. Der Quellcode ist unter https://github.com/kaichen-z/VMLoc verfügbar.