Command Palette
Search for a command to run...
MapTrace: Skalierbare Datengenerierung für Routenverfolgung auf Karten
MapTrace: Skalierbare Datengenerierung für Routenverfolgung auf Karten
Artemis Panagopoulou Aveek Purohit Achin Kulshrestha Soroosh Yazdani Mohit Goyal
Abstract
Obwohl multimodale große Sprachmodelle (Multimodal Large Language Models, MLLMs) auf vielen visuellen und textuellen Reasoning-Aufgaben menschenähnliche Leistungen erzielt haben, bleiben ihre Fähigkeiten in feinabgestufter räumlicher Wahrnehmung – beispielsweise der Wegverfolgung auf Karten – weiterhin eingeschränkt. Im Gegensatz zu Menschen, die Karten schnell interpretieren und navigieren können, verletzen aktuelle Modelle oft grundlegende Pfadbeschränkungen, was teilweise auf die prohibitiv hohen Kosten und die Schwierigkeiten bei der Erhebung großer, pixelgenauer Pfadannotierungen zurückzuführen ist. Um diesem Problem zu begegnen, stellen wir eine skalierbare Pipeline zur Generierung synthetischer Daten vor, die synthetische Kartenbilder und pixelgenaue Parsing-Techniken nutzt, um automatisch präzise Annotationen für diese anspruchsvolle Aufgabe zu erzeugen. Mit dieser Pipeline erstellen wir eine Fine-Tuning-Datenbank mit 23.000 Pfadproben auf 4.000 Karten, die es Modellen ermöglicht, menschenähnlichere räumliche Fähigkeiten zu erwerben. Anhand dieser Datenbank fine-tunen wir sowohl offene als auch proprietäre MLLMs. Die Ergebnisse auf MapBench zeigen, dass das Fine-Tuning die Robustheit erheblich verbessert und die Erfolgsraten um bis zu 6,4 Punkte steigert, während gleichzeitig der Pfadverfolgungsfehler (NDTW) sinkt. Diese Ergebnisse unterstreichen, dass feinabgestufte räumliche Schlussfolgerung, die in vortrainierten Modellen fehlt, durch synthetische Aufsicht gezielt vermittelt werden kann.