HyperAIHyperAI
vor 2 Monaten

Einheitliche Schätzung von Fluss, Stereo und Tiefe

Haofei Xu; Jing Zhang; Jianfei Cai; Hamid Rezatofighi; Fisher Yu; Dacheng Tao; Andreas Geiger
Einheitliche Schätzung von Fluss, Stereo und Tiefe
Abstract

Wir präsentieren eine einheitliche Formulierung und ein Modell für drei Aufgaben im Bereich Bewegungsanalyse und 3D-Wahrnehmung: optischen Fluss, rektifiziertes Stereo-Matching und unrektifizierte Tiefenschätzung aus posierten Bildern. Im Gegensatz zu früheren spezialisierten Architekturen für jede einzelne Aufgabe formulieren wir alle drei Aufgaben als ein einheitliches Problem der dichten Korrespondenzsuche, das mit einem einzigen Modell durch direkten Vergleich von Merkmalsähnlichkeiten gelöst werden kann. Eine solche Formulierung erfordert diskriminative Merkmalsrepräsentationen, die wir mithilfe eines Transformers, insbesondere des Cross-Attention-Mechanismus, erreichen. Wir zeigen, dass Cross-Attention durch interaktive Ansichten Wissen aus einem anderen Bild integrieren kann, was die Qualität der extrahierten Merkmale erheblich verbessert. Unser einheitliches Modell ermöglicht auf natürliche Weise den Transfer zwischen den Aufgaben, da sowohl die Modellarchitektur als auch die Parameter über alle Aufgaben hinweg geteilt werden. Wir übertreffen RAFT mit unserem einheitlichen Modell auf dem anspruchsvollen Sintel-Datensatz und unser endgültiges Modell, das einige zusätzliche aufgabenbezogene Verfeinerungsschritte verwendet, übertreffen oder vergleicht sich günstig mit aktuellen Stand-of-the-Art-Methoden auf zehn beliebten Fluss-, Stereo- und Tiefendatensätzen, während es gleichzeitig einfacher und effizienter in Bezug auf Modellaufbau und Inferenzgeschwindigkeit ist.