HyperAIHyperAI
vor 17 Tagen

CRAFT: Cross-Attentional Flow Transformer für robuste optische Flüsse

Xiuchao Sui, Shaohua Li, Xue Geng, Yan Wu, Xinxing Xu, Yong Liu, Rick Goh, Hongyuan Zhu
CRAFT: Cross-Attentional Flow Transformer für robuste optische Flüsse
Abstract

Die Schätzung des optischen Flusses zielt darauf ab, das 2D-Bewegungsfeld durch die Identifizierung entsprechender Pixel zwischen zwei Bildern zu ermitteln. Trotz der erheblichen Fortschritte bei tiefen Lernmethoden für den optischen Fluss bleibt die genaue Schätzung großer Verschiebungen bei Bewegungsunschärfe eine Herausforderung. Dies liegt hauptsächlich daran, dass das Korrelationsvolumen – die Grundlage für die Pixelzuordnung – als Skalarprodukt der konvolutionellen Merkmale beider Bilder berechnet wird. Die Lokalität der konvolutionellen Merkmale macht die berechneten Korrelationen anfällig für verschiedene Rauschquellen. Bei großen Verschiebungen unter Bewegungsunschärfe können rauschbehaftete Korrelationen zu erheblichen Fehlern in der geschätzten Bewegung führen. Um dieser Herausforderung zu begegnen, schlagen wir eine neue Architektur namens „CRoss-Attentional Flow Transformer“ (CRAFT) vor, die darauf abzielt, die Berechnung des Korrelationsvolumens zu revitalisieren. In CRAFT transformiert eine Semantische Glättungs-Transformer-Schicht die Merkmale eines Bildes, wodurch diese globaler und semantisch stabiler werden. Zudem werden die Skalarprodukt-Korrelationen durch den Transformer-Cross-Frame-Attention-Mechanismus ersetzt. Diese Schicht filtert Merkmalsrauschen durch die Projektionen von Query und Key heraus und berechnet präzisere Korrelationen. Auf den Benchmarks Sintel (Final) und KITTI (Vordergrund) erreicht CRAFT neue SOTA-Leistungen (State-of-the-Art). Darüber hinaus haben wir einen Bildverschiebeangriff entworfen, um die Robustheit verschiedener Modelle gegenüber großen Bewegungen zu testen, bei dem die Eingabebilder verschoben werden, um künstlich große Bewegungen zu erzeugen. Unter diesem Angriff zeigt CRAFT eine deutlich höhere Robustheit gegenüber zwei repräsentativen Methoden, RAFT und GMA. Der Quellcode von CRAFT ist unter https://github.com/askerlee/craft verfügbar.