HyperAIHyperAI

Command Palette

Search for a command to run...

CroCo v2: Verbessertes Cross-view-Vervollständigungs-Vortraining für Stereoabstand und optische Fluss

Philippe Weinzaepfel Thomas Lucas Vincent Leroy Yohann Cabon Vaibhav Arora Romain Brégier Gabriela Csurka Leonid Antsfeld Boris Chidlovskii Jérôme Revaud

Zusammenfassung

Trotz beeindruckender Leistung bei hochleveligen Downstream-Aufgaben haben selbstüberwachte Vortrainingsmethoden bisher noch nicht vollständig ihre Potenziale in dichten geometrischen Vision-Aufgaben wie Stereobildübereinstimmung oder optischer Fluss erschlossen. Die Anwendung selbstüberwachter Konzepte wie Instanzdiskriminierung oder maskiertes Bildmodellieren auf geometrische Aufgaben ist ein aktives Forschungsfeld. In dieser Arbeit bauen wir auf dem kürzlich vorgestellten Cross-View-Completion-Framework auf, einer Variante des maskierten Bildmodellierens, das eine zweite Ansicht derselben Szene nutzt und daher besonders gut für binokulare Downstream-Aufgaben geeignet ist. Die Anwendbarkeit dieses Ansatzes ist bisher jedoch mindestens in zweifacher Hinsicht begrenzt: (a) durch die Schwierigkeit, reale Bildpaare zu sammeln – in der Praxis wurden bisher ausschließlich synthetische Daten verwendet – und (b) durch die mangelnde Generalisierung herkömmlicher Transformers auf dichte Downstream-Aufgaben, bei denen relative Positionen bedeutungsvoller sind als absolute Positionen. Wir untersuchen drei Ansätze zur Verbesserung. Erstens stellen wir eine Methode zur großskaligen Sammlung geeigneter reeller Bildpaare vor. Zweitens experimentieren wir mit relativen Positionseingaben und zeigen, dass diese es Vision-Transformern ermöglichen, deutlich bessere Ergebnisse zu erzielen. Drittens skalieren wir Architekturen basierend auf Vision-Transformern für die Cross-Completion aus, was durch die Nutzung großer Datenmengen möglich wird. Mit diesen Verbesserungen zeigen wir erstmals, dass state-of-the-art-Ergebnisse bei der Stereobildübereinstimmung und optischem Fluss erreicht werden können, ohne klassische, auf die Aufgabe zugeschnittene Techniken wie Korrelationsvolumen, iterative Schätzung, Bildverzerrung oder mehrstufige Reasoning einzusetzen. Damit wird der Weg für universelle Vision-Modelle geebnet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CroCo v2: Verbessertes Cross-view-Vervollständigungs-Vortraining für Stereoabstand und optische Fluss | Paper | HyperAI