HyperAIHyperAI

Command Palette

Search for a command to run...

ViTMatte: Bildmatting durch vortrainierte einfache Vision-Transformer verbessern

Jingfeng Yao Xinggang Wang Shusheng Yang Baoyuan Wang

Zusammenfassung

Kürzlich haben einfache Vision-Transformer (ViT) aufgrund ihrer starken Modellierungskapazität und großskaligen Vortrainings beeindruckende Leistungen bei verschiedenen Aufgaben des maschinellen Sehens erzielt. Dennoch haben sie bislang das Problem der Bild-Matting noch nicht gemeistert. Wir vermuten, dass auch das Bild-Matting durch ViT verbessert werden kann, und präsentieren ein neues, effizientes und robustes auf ViT basierendes Matting-System namens ViTMatte. Unsere Methode setzt (i) einen hybriden Aufmerksamkeitsmechanismus in Kombination mit einem Konvolutionsschaltkreis (convolution neck) ein, um ViT eine hervorragende Leistungs-Computing-Trade-off in Matting-Aufgaben zu ermöglichen. (ii) Zudem führen wir die Detail-Aufnahme-Modul (detail capture module) ein, das ausschließlich aus einfachen, leichtgewichtigen Konvolutionen besteht und die für das Matting erforderliche detaillierte Information ergänzt. Sofern uns bekannt ist, ist ViTMatte die erste Arbeit, die das Potenzial von ViT beim Bild-Matting durch eine präzise Anpassung voll ausschöpft. Das System übernimmt zahlreiche überlegene Eigenschaften von ViT für das Matting, darunter verschiedene Vortrainingsstrategien, eine kompakte Architekturgestaltung sowie flexible Inferenzstrategien. Wir evaluieren ViTMatte auf den Benchmark-Datenbanken Composition-1k und Distinctions-646, den am häufigsten verwendeten Benchmarks für Bild-Matting. Unser Ansatz erreicht dabei state-of-the-art-Leistungen und übertrifft vorherige Matting-Methoden deutlich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ViTMatte: Bildmatting durch vortrainierte einfache Vision-Transformer verbessern | Paper | HyperAI