HyperAIHyperAI

Command Palette

Search for a command to run...

MatteFormer: Transformer-basierte Bildmatting mittels Prior-Tokens

GyuTae Park SungJoon Son JaeYoung Yoo SeHo Kim Nojun Kwak

Zusammenfassung

In diesem Artikel stellen wir ein auf Transformers basierendes Modell für die Bild-Matting-Task namens MatteFormer vor, das die Trimap-Informationen vollständig im Transformer-Block nutzt. Unser Ansatz führt zunächst einen Prior-Token ein, der eine globale Repräsentation jeder Trimap-Region (z. B. Vordergrund, Hintergrund und unbekannt) darstellt. Diese Prior-Tokens dienen als globale Vorkenntnisse und nehmen an der Self-Attention-Mechanismen jedes Blocks teil. Jeder Stufe des Encoders liegt ein PAST-(Prior-Attentive Swin Transformer)-Block zugrunde, der auf dem Swin-Transformer-Block basiert, jedoch in mehreren Aspekten abweicht: 1) Er verfügt über eine PA-WSA-(Prior-Attentive Window Self-Attention)-Schicht, die die Self-Attention nicht nur mit räumlichen Tokens, sondern auch mit Prior-Tokens durchführt. 2) Er verfügt über eine Prior-Memory, die die Prior-Tokens kumulativ aus den vorherigen Blöcken speichert und sie an den nächsten Block weitergibt. Wir evaluieren unser MatteFormer auf den gängigen Bild-Matting-Datensätzen Composition-1k und Distinctions-646. Die Experimente zeigen, dass unser vorgeschlagenes Verfahren eine state-of-the-art-Leistung mit deutlichem Abstand erreicht. Unsere Quellcodes sind unter https://github.com/webtoon/matteformer verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp