MatteFormer: Transformer-basierte Bildmatting mittels Prior-Tokens

In diesem Artikel stellen wir ein auf Transformers basierendes Modell für die Bild-Matting-Task namens MatteFormer vor, das die Trimap-Informationen vollständig im Transformer-Block nutzt. Unser Ansatz führt zunächst einen Prior-Token ein, der eine globale Repräsentation jeder Trimap-Region (z. B. Vordergrund, Hintergrund und unbekannt) darstellt. Diese Prior-Tokens dienen als globale Vorkenntnisse und nehmen an der Self-Attention-Mechanismen jedes Blocks teil. Jeder Stufe des Encoders liegt ein PAST-(Prior-Attentive Swin Transformer)-Block zugrunde, der auf dem Swin-Transformer-Block basiert, jedoch in mehreren Aspekten abweicht: 1) Er verfügt über eine PA-WSA-(Prior-Attentive Window Self-Attention)-Schicht, die die Self-Attention nicht nur mit räumlichen Tokens, sondern auch mit Prior-Tokens durchführt. 2) Er verfügt über eine Prior-Memory, die die Prior-Tokens kumulativ aus den vorherigen Blöcken speichert und sie an den nächsten Block weitergibt. Wir evaluieren unser MatteFormer auf den gängigen Bild-Matting-Datensätzen Composition-1k und Distinctions-646. Die Experimente zeigen, dass unser vorgeschlagenes Verfahren eine state-of-the-art-Leistung mit deutlichem Abstand erreicht. Unsere Quellcodes sind unter https://github.com/webtoon/matteformer verfügbar.