CATs: Cost Aggregation Transformers für visuelle Korrespondenz

Wir schlagen ein neuartiges Kostenaggregationsnetzwerk namens Cost Aggregation Transformers (CATs) vor, um dichte Entsprechungen zwischen semantisch ähnlichen Bildern zu finden, wobei zusätzliche Herausforderungen durch große intra-klassische Unterschiede in Erscheinungsbild und Geometrie bestehen. Die Kostenaggregation ist ein entscheidender Prozess in Matching-Aufgaben, dessen Genauigkeit maßgeblich von der Qualität der Ausgabe abhängt. Im Vergleich zu handgefertigten oder CNN-basierten Ansätzen, die entweder anfällig für starke Verzerrungen sind oder die Einschränkungen von CNNs erben – insbesondere die begrenzte Empfindlichkeitsfeldgröße, die die Unterscheidung fehlerhafter Zuordnungen erschwert – nutzt CATs durch spezielle architektonische Gestaltungsprinzipien eine globale Konsensbildung innerhalb der anfänglichen Korrelationskarte und ermöglicht so eine vollständige Ausnutzung des Selbst-Attention-Mechanismus. Konkret integrieren wir eine Modellierung der Erscheinungsähnlichkeit, um den Kostenaggregationsprozess zu unterstützen und die rauschbehafteten anfänglichen Korrelationskarten besser zu entschlüsseln, sowie eine mehrstufige Aggregation, um unterschiedliche Semantikinformationen aus hierarchischen Merkmalsdarstellungen effizient zu erfassen. Anschließend kombinieren wir die Austausch-Attention-Technik mit Residual-Verbindungen, um nicht nur eine konsistente Zuordnung zu fördern, sondern auch das Lernverhalten zu erleichtern. Wir beobachten, dass diese Maßnahmen zu einer deutlichen Leistungssteigerung führen. Wir führen Experimente durch, um die Wirksamkeit des vorgeschlagenen Modells gegenüber aktuellen Methoden zu demonstrieren, und präsentieren umfangreiche Ablationsstudien. Die Projektseite ist unter folgender Adresse verfügbar: https://sunghwanhong.github.io/CATs/.