Lernen der Schätzung verborgener Bewegungen mit globaler Bewegungsaggregation

Oklusionen stellen eine erhebliche Herausforderung für optische Flussalgorithmen dar, die auf lokalen Hinweisen basieren. Wir definieren einen okkludierten Punkt als einen Punkt, der im ersten Frame abgebildet ist, aber im nächsten Frame nicht mehr erscheint – eine geringfügige Erweiterung der üblichen Definition, da auch Punkte eingeschlossen sind, die aus dem Bildbereich herausbewegt werden. Die Schätzung der Bewegung solcher Punkte ist besonders im Zwei-Frame-Szenario äußerst schwierig. Frühere Ansätze setzen auf CNNs zur Lernung von Okklusionen, ohne großes Erfolg zu erzielen, oder erfordern mehrere Frames, um mithilfe der zeitlichen Glättung Okklusionen zu modellieren. In diesem Paper argumentieren wir, dass das Okklusionsproblem im Zwei-Frame-Fall besser durch Modellierung von Bild-Selbstähnlichkeiten gelöst werden kann. Wir führen ein Modul zur globalen Bewegungsaggregation ein, ein auf Transformers basierender Ansatz, um langreichweitige Abhängigkeiten zwischen Pixeln im ersten Bild zu erfassen, und führen eine globale Aggregation der entsprechenden Bewegungsmerkmale durch. Wir zeigen, dass die optischen Fluss-Schätzungen in okkludierten Regionen erheblich verbessert werden können, ohne die Leistung in nicht-okkludierten Regionen zu beeinträchtigen. Unser Ansatz erreicht neue SOTA-Ergebnisse auf dem anspruchsvollen Sintel-Datensatz, wobei der durchschnittliche Endpunktfehler auf Sintel Final um 13,6 % und auf Sintel Clean um 13,7 % reduziert wird. Zum Zeitpunkt der Einreichung befindet sich unsere Methode auf den ersten Plätzen dieser Benchmarks unter allen veröffentlichten und unveröffentlichten Ansätzen. Der Quellcode ist unter https://github.com/zacjiang/GMA verfügbar.