VMLoc: Variational Fusion für datenbasierte multimodale Kamerapositionsermittlung

Neuere, lernbasierte Ansätze haben beeindruckende Ergebnisse im Bereich der Einzelschuss-Kamerakalibrierung erzielt. Allerdings sind die optimale Fusionsstrategie mehrerer Modalitäten (z. B. Bild und Tiefeninformation) sowie die Bewältigung von beeinträchtigten oder fehlenden Eingabedaten weniger gut untersucht. Insbesondere stellen wir fest, dass bisherige Ansätze zur tiefen Fusionsintegration nicht signifikant besser abschneiden als Modelle, die lediglich eine einzige Modality nutzen. Wir vermuten, dass dies darauf zurückzuführen ist, dass herkömmliche Ansätze zur Fusionsintegration im Merkmalsraum – beispielsweise durch Addition oder Verkettung – die unterschiedlichen Stärken jeder Modality nicht berücksichtigen. Um dies zu adressieren, schlagen wir einen end-to-end-Framework namens VMLoc vor, der verschiedene Sensoreingaben durch eine variational Product-of-Experts (PoE)-Fusion in einen gemeinsamen latenten Raum überführt, gefolgt von einer auf Aufmerksamkeit basierenden Fusionsstrategie. Im Gegensatz zu früheren multimodalen variationalen Ansätzen, die die Zielfunktion eines herkömmlichen variationalen Autoencoders direkt übernehmen, zeigen wir, wie die Kamerakalibrierung präzise durch eine verzerrungsfreie Zielfunktion basierend auf Importance Weighting geschätzt werden kann. Unser Modell wird umfassend an RGB-D-Datensätzen evaluiert, wobei die Ergebnisse die Wirksamkeit unseres Ansatzes belegen. Der Quellcode ist unter https://github.com/kaichen-z/VMLoc verfügbar.