Neubewertung von RAFT für effiziente optische Flüsse

Trotz erheblicher Fortschritte bei tiefen Lernverfahren zur optischen Flussberechnung bleibt die genaue Schätzung großer Verschiebungen und wiederholender Muster weiterhin eine Herausforderung. Diese Schwierigkeiten resultieren aus den Beschränkungen lokaler Merkmale und der Ähnlichkeitssuche, die in diesen Algorithmen verwendet werden. Zudem leiden einige bestehende Methoden unter langen Laufzeiten und übermäßig hohem Grafikspeicherverbrauch. Um diese Probleme anzugehen, wird in diesem Artikel ein neuartiger Ansatz auf Basis des RAFT-Rahmenwerks vorgestellt. Der vorgeschlagene Ansatz „Attention-based Feature Localization (AFL)“ integriert die Aufmerksamkeitsmechanik, um globale Merkmalsextraktion zu ermöglichen und wiederholende Muster besser zu bewältigen. Er führt einen Operator ein, der Pixel mit ihren entsprechenden Gegenstücken im zweiten Frame verknüpft und präzise Flusswerte zuweist. Darüber hinaus wird ein „Amorphous Lookup Operator (ALO)“ vorgeschlagen, um die Konvergenzgeschwindigkeit zu erhöhen und die Fähigkeit von RAFT zur Behandlung großer Verschiebungen zu verbessern, indem die Datenredundanz im Suchoperator reduziert und der Suchraum für die Ähnlichkeitsextraktion erweitert wird. Die vorgeschlagene Methode, „Efficient RAFT (Ef-RAFT)“, erreicht auf dem Sintel-Datensatz eine signifikante Verbesserung um 10 % und auf dem KITTI-Datensatz um 5 % gegenüber RAFT. Bemerkenswerterweise werden diese Verbesserungen mit einer geringfügigen Reduktion der Geschwindigkeit um 33 % und einer nur geringen Erhöhung des Speicherverbrauchs um 13 % erzielt. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/n3slami/Ef-RAFT