HyperAIHyperAI
vor 7 Tagen

Kostenaggregation ist alles, was Sie für Few-Shot-Segmentierung benötigen

Sunghwan Hong, Seokju Cho, Jisu Nam, Seungryong Kim
Kostenaggregation ist alles, was Sie für Few-Shot-Segmentierung benötigen
Abstract

Wir stellen ein neuartiges Kostenaggregationssystem vor, das als Volumetrische Aggregation mit Transformers (VAT) bezeichnet wird, um die Few-Shot-Segmentierungsaufgabe durch die Kombination von Faltungsnetzwerken und Transformers effizient zu lösen, indem hochdimensionale Korrelationskarten zwischen Query- und Support-Bildern verarbeitet werden. Konkret schlagen wir einen Encoder vor, bestehend aus einem Volumen-Embedding-Modul, das die Korrelationskarten nicht nur in eine handhabbarere Größe transformiert, sondern auch eine gewisse faltungsbedingte induktive Voreingenommenheit einbringt, sowie einem volumetrischen Transformer-Modul zur Kostenaggregation. Unser Encoder weist eine pyramidenförmige Struktur auf, die es ermöglicht, dass die groberen Aggregationsebenen die feineren Ebenen leiten und gleichzeitig dazu beitragen, komplementäre Übereinstimmungsscores zu lernen. Anschließend leiten wir die Ausgabe in unseren affinitätsbewussten Decoder ein, zusammen mit projizierten Merkmalskarten, um den Segmentierungsprozess zu leiten. Durch die Kombination dieser Komponenten führen wir Experimente durch, um die Wirksamkeit des vorgeschlagenen Ansatzes zu demonstrieren. Unser Verfahren erreicht eine neue State-of-the-Art-Leistung auf allen Standardbenchmarks der Few-Shot-Segmentierung. Darüber hinaus stellen wir fest, dass das vorgeschlagene Verfahren auch auf den Standardbenchmarks der semantischen Korrespondenzaufgabe eine state-of-the-art-Leistung erzielt, obwohl es nicht speziell für diese Aufgabe konzipiert wurde. Zudem führen wir eine umfassende Ablationstudie durch, um unsere architektonischen Entscheidungen zu validieren. Die trainierten Gewichte und der Quellcode sind unter folgender Adresse verfügbar: https://seokju-cho.github.io/VAT/.

Kostenaggregation ist alles, was Sie für Few-Shot-Segmentierung benötigen | Neueste Forschungsarbeiten | HyperAI