vor 17 Tagen

CroCo v2: Verbessertes Cross-view-Vervollständigungs-Vortraining für Stereoabstand und optische Fluss

Philippe Weinzaepfel, Thomas Lucas, Vincent Leroy, Yohann Cabon, Vaibhav Arora, Romain Brégier, Gabriela Csurka, Leonid Antsfeld, Boris Chidlovskii, Jérôme Revaud

Details der Forschungsarbeit anzeigen

CroCo v2: Verbessertes Cross-view-Vervollständigungs-Vortraining für Stereoabstand und optische Fluss

Abstract

Trotz beeindruckender Leistung bei hochleveligen Downstream-Aufgaben haben selbstüberwachte Vortrainingsmethoden bisher noch nicht vollständig ihre Potenziale in dichten geometrischen Vision-Aufgaben wie Stereobildübereinstimmung oder optischer Fluss erschlossen. Die Anwendung selbstüberwachter Konzepte wie Instanzdiskriminierung oder maskiertes Bildmodellieren auf geometrische Aufgaben ist ein aktives Forschungsfeld. In dieser Arbeit bauen wir auf dem kürzlich vorgestellten Cross-View-Completion-Framework auf, einer Variante des maskierten Bildmodellierens, das eine zweite Ansicht derselben Szene nutzt und daher besonders gut für binokulare Downstream-Aufgaben geeignet ist. Die Anwendbarkeit dieses Ansatzes ist bisher jedoch mindestens in zweifacher Hinsicht begrenzt: (a) durch die Schwierigkeit, reale Bildpaare zu sammeln – in der Praxis wurden bisher ausschließlich synthetische Daten verwendet – und (b) durch die mangelnde Generalisierung herkömmlicher Transformers auf dichte Downstream-Aufgaben, bei denen relative Positionen bedeutungsvoller sind als absolute Positionen. Wir untersuchen drei Ansätze zur Verbesserung. Erstens stellen wir eine Methode zur großskaligen Sammlung geeigneter reeller Bildpaare vor. Zweitens experimentieren wir mit relativen Positionseingaben und zeigen, dass diese es Vision-Transformern ermöglichen, deutlich bessere Ergebnisse zu erzielen. Drittens skalieren wir Architekturen basierend auf Vision-Transformern für die Cross-Completion aus, was durch die Nutzung großer Datenmengen möglich wird. Mit diesen Verbesserungen zeigen wir erstmals, dass state-of-the-art-Ergebnisse bei der Stereobildübereinstimmung und optischem Fluss erreicht werden können, ohne klassische, auf die Aufgabe zugeschnittene Techniken wie Korrelationsvolumen, iterative Schätzung, Bildverzerrung oder mehrstufige Reasoning einzusetzen. Damit wird der Weg für universelle Vision-Modelle geebnet.