CATs++: Kostenaggregation durch Faltungen und Transformatoren verbessern

Die Kostenaggregation ist ein entscheidender Prozess bei Aufgaben der Bildübereinstimmung, der darauf abzielt, die verrauschten Übereinstimmungsscores zu entwirren. Bisherige Ansätze behandeln dieses Problem meist mittels handgefertigter oder CNN-basierter Methoden, die entweder anfällig für starke Verzerrungen sind oder die Einschränkungen von CNNs erben, die aufgrund begrenzter Empfindlichkeitsfelder und mangelnder Anpassungsfähigkeit nicht in der Lage sind, falsche Übereinstimmungen zu unterscheiden. In diesem Artikel stellen wir Cost Aggregation with Transformers (CATs) vor, um dieses Problem zu lösen, indem wir den globalen Konsens innerhalb der anfänglichen Korrelationskarte mittels spezieller architektonischer Gestaltungen erschließen, die es uns ermöglichen, die vollen Vorteile der globalen Empfindlichkeitsfelder der Selbst-Attention-Mechanismen voll auszunutzen. Um einige der Einschränkungen zu mildern, denen CATs ausgesetzt sind – insbesondere die hohen Rechenkosten, die durch den Einsatz eines Standard-Transformers entstehen, dessen Komplexität mit der Größe der räumlichen und Merkmalsdimensionen ansteigt, was die Anwendbarkeit auf begrenzte Auflösungen beschränkt und zu vergleichsweise geringen Leistungen führt –, schlagen wir CATs++ vor, eine Erweiterung von CATs. Unsere vorgeschlagenen Methoden erreichen deutlich bessere Ergebnisse als die bisherigen State-of-the-Art-Verfahren und setzen eine neue Benchmark für alle getesteten Datensätze, darunter PF-WILLOW, PF-PASCAL und SPair-71k. Zudem führen wir umfangreiche Ablation-Studien und Analysen durch.