HyperAIHyperAI

Command Palette

Search for a command to run...

GIM: Lernen eines allgemein verallgemeinerbaren Bildvergleichers aus Internet-Videos

Shen Xuelun ; Cai Zhipeng ; Yin Wei ; Müller Matthias ; Li Zijun ; Wang Kaixuan ; Chen Xiaozhi ; Wang Cheng

Zusammenfassung

Bildabgleich ist ein grundlegendes Problem der Computer Vision. Obwohl lernbasierte Methoden auf bestehenden Benchmarks den aktuellen Stand der Technik erreichen, verallgemeinern sie sich schlecht auf Bilder aus dem echten Leben. Solche Methoden benötigen in der Regel das Training separater Modelle für verschiedene Szenearten und sind unpraktisch, wenn die Szeneart im Voraus unbekannt ist. Ein zugrundeliegendes Problem ist die begrenzte Skalierbarkeit bestehender Datenkonstruktionspipelines, die die Vielfalt standardisierter Bildabgleich-Datensätze einschränken. Um dieses Problem zu lösen, schlagen wir GIM vor, einen Selbsttrainingsrahmen zur Lernung eines einzigen übertragbaren Modells basierend auf jeder Bildabgleich-Architektur unter Verwendung von Internet-Videos, einer reichhaltigen und vielfältigen Datenquelle. Gegeben eine Architektur, trainiert GIM diese zunächst anhand domänenspezifischer Standarddatensätze und kombiniert es dann mit ergänzenden Abgleichsmethoden, um dichte Labels in benachbarten Frames neuer Videos zu erstellen. Diese Labels werden durch robuste Anpassung gefiltert und dann durch ihre Propagation zu entfernten Frames verbessert. Das endgültige Modell wird anhand propagierter Daten mit starken Augmentierungen trainiert.Darüber hinaus schlagen wir ZEB vor, das erste Zero-Shot-Evaluationsbenchmark für Bildabgleich. Durch das Mischen von Daten aus verschiedenen Domänen kann ZEB die Querdomänen-Verallgemeinerungsleistung verschiedener Methoden gründlich bewerten. Die Anwendung von GIM verbessert konsistent die Zero-Shot-Leistung von 3 state-of-the-art-Bildabgleich-Architekturen; mit 50 Stunden YouTube-Videos steigt die relative Zero-Shot-Leistung um 8,4% bis 18,1%. GIM ermöglicht auch die Verallgemeinerung auf extrem querdomain-Daten wie Bird Eye View (BEV)-Bilder projizierter 3D-Punktwolken (Abbildung 1(c)). Wichtiger noch ist, dass unser einzelnes Zero-Shot-Modell bei der Bewertung anhand downstreampflichtspezifischer Aufgaben in ihren jeweiligen Domänen konsistent besser abschneidet als domänenspezifische Baseline-Modelle. Die Video-präsentation ist unter https://www.youtube.com/watch?v=FU_MJLD8LeY verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp