vor 17 Tagen

ViTMatte: Bildmatting durch vortrainierte einfache Vision-Transformer verbessern

Jingfeng Yao, Xinggang Wang, Shusheng Yang, Baoyuan Wang

Abstract

Kürzlich haben einfache Vision-Transformer (ViT) aufgrund ihrer starken Modellierungskapazität und großskaligen Vortrainings beeindruckende Leistungen bei verschiedenen Aufgaben des maschinellen Sehens erzielt. Dennoch haben sie bislang das Problem der Bild-Matting noch nicht gemeistert. Wir vermuten, dass auch das Bild-Matting durch ViT verbessert werden kann, und präsentieren ein neues, effizientes und robustes auf ViT basierendes Matting-System namens ViTMatte. Unsere Methode setzt (i) einen hybriden Aufmerksamkeitsmechanismus in Kombination mit einem Konvolutionsschaltkreis (convolution neck) ein, um ViT eine hervorragende Leistungs-Computing-Trade-off in Matting-Aufgaben zu ermöglichen. (ii) Zudem führen wir die Detail-Aufnahme-Modul (detail capture module) ein, das ausschließlich aus einfachen, leichtgewichtigen Konvolutionen besteht und die für das Matting erforderliche detaillierte Information ergänzt. Sofern uns bekannt ist, ist ViTMatte die erste Arbeit, die das Potenzial von ViT beim Bild-Matting durch eine präzise Anpassung voll ausschöpft. Das System übernimmt zahlreiche überlegene Eigenschaften von ViT für das Matting, darunter verschiedene Vortrainingsstrategien, eine kompakte Architekturgestaltung sowie flexible Inferenzstrategien. Wir evaluieren ViTMatte auf den Benchmark-Datenbanken Composition-1k und Distinctions-646, den am häufigsten verwendeten Benchmarks für Bild-Matting. Unser Ansatz erreicht dabei state-of-the-art-Leistungen und übertrifft vorherige Matting-Methoden deutlich.