Globale Anpassung mit überlappendem Attention für die optische Flussschätzung

Die Schätzung des optischen Flusses ist eine grundlegende Aufgabe im Bereich des Computersehens. Kürzlich haben direkte Regressionsmethoden, die tiefgreifende neuronale Netze verwenden, eine bemerkenswerte Leistungssteigerung erzielt. Allerdings erfassen sie langfristige Bewegungsentsprechungen nicht explizit und können daher große Bewegungen nicht effektiv bewältigen. In diesem Paper lassen wir uns von traditionellen Matching-Optimierungsverfahren inspirieren, bei denen zunächst ein Matching zur Behandlung großer Verschiebungen vor energiebasierten Optimierungen durchgeführt wird. Wir führen daher einen einfachen, aber effektiven globalen Matching-Schritt vor der direkten Regression ein und entwickeln einen lernbasierten Matching-Optimierungs-Framework namens GMFlowNet. In GMFlowNet wird das globale Matching effizient durch Anwendung von argmax auf 4D-Kostenvolumina berechnet. Zusätzlich schlagen wir eine patchbasierte überlappende Aufmerksamkeit vor, um große Kontextmerkmale zu extrahieren und die Matching-Qualität zu verbessern. Umfangreiche Experimente zeigen, dass GMFlowNet RAFT, die am häufigsten verwendete Methode, die ausschließlich auf Optimierung basiert, deutlich übertrifft und auf Standardbenchmarks die derzeit beste Leistung erzielt. Durch die Kombination aus Matching und überlappender Aufmerksamkeit erzielt GMFlowNet signifikante Verbesserungen bei der Vorhersage für texturlose Regionen und große Bewegungen. Der Quellcode ist öffentlich unter https://github.com/xiaofeng94/GMFlowNet verfügbar.