Command Palette
Search for a command to run...
GIM: Lernen eines allgemein verallgemeinerbaren Bildvergleichers aus Internet-Videos
GIM: Lernen eines allgemein verallgemeinerbaren Bildvergleichers aus Internet-Videos
Shen Xuelun ; Cai Zhipeng ; Yin Wei ; Müller Matthias ; Li Zijun ; Wang Kaixuan ; Chen Xiaozhi ; Wang Cheng
Zusammenfassung
Bildabgleich ist ein grundlegendes Problem der Computer Vision. Obwohl lernbasierte Methoden auf bestehenden Benchmarks den aktuellen Stand der Technik erreichen, verallgemeinern sie sich schlecht auf Bilder aus dem echten Leben. Solche Methoden benötigen in der Regel das Training separater Modelle für verschiedene Szenearten und sind unpraktisch, wenn die Szeneart im Voraus unbekannt ist. Ein zugrundeliegendes Problem ist die begrenzte Skalierbarkeit bestehender Datenkonstruktionspipelines, die die Vielfalt standardisierter Bildabgleich-Datensätze einschränken. Um dieses Problem zu lösen, schlagen wir GIM vor, einen Selbsttrainingsrahmen zur Lernung eines einzigen übertragbaren Modells basierend auf jeder Bildabgleich-Architektur unter Verwendung von Internet-Videos, einer reichhaltigen und vielfältigen Datenquelle. Gegeben eine Architektur, trainiert GIM diese zunächst anhand domänenspezifischer Standarddatensätze und kombiniert es dann mit ergänzenden Abgleichsmethoden, um dichte Labels in benachbarten Frames neuer Videos zu erstellen. Diese Labels werden durch robuste Anpassung gefiltert und dann durch ihre Propagation zu entfernten Frames verbessert. Das endgültige Modell wird anhand propagierter Daten mit starken Augmentierungen trainiert.Darüber hinaus schlagen wir ZEB vor, das erste Zero-Shot-Evaluationsbenchmark für Bildabgleich. Durch das Mischen von Daten aus verschiedenen Domänen kann ZEB die Querdomänen-Verallgemeinerungsleistung verschiedener Methoden gründlich bewerten. Die Anwendung von GIM verbessert konsistent die Zero-Shot-Leistung von 3 state-of-the-art-Bildabgleich-Architekturen; mit 50 Stunden YouTube-Videos steigt die relative Zero-Shot-Leistung um 8,4% bis 18,1%. GIM ermöglicht auch die Verallgemeinerung auf extrem querdomain-Daten wie Bird Eye View (BEV)-Bilder projizierter 3D-Punktwolken (Abbildung 1(c)). Wichtiger noch ist, dass unser einzelnes Zero-Shot-Modell bei der Bewertung anhand downstreampflichtspezifischer Aufgaben in ihren jeweiligen Domänen konsistent besser abschneidet als domänenspezifische Baseline-Modelle. Die Video-präsentation ist unter https://www.youtube.com/watch?v=FU_MJLD8LeY verfügbar.