HyperAIHyperAI

Command Palette

Search for a command to run...

DPT: Deformable Patch-based Transformer für die visuelle Erkennung

Zhiyang Chen Yousong Zhu Chaoyang Zhao Guosheng Hu Wei Zeng Jinqiao Wang Ming Tang

Zusammenfassung

Der Transformer hat in der Computer Vision große Erfolge erzielt, während die Aufteilung von Bildbereichen (Patches) weiterhin eine Herausforderung darstellt. Bisherige Ansätze verwenden typischerweise feste Patch-Größen bei der Patch-Embedding-Transformation, was die semantischen Informationen von Objekten möglicherweise beeinträchtigen kann. Um dieses Problem zu lösen, schlagen wir ein neues deformerbares Patch-Modul (DePatch) vor, das lernbar ist und die Bilder datengetrieben adaptiv in Patches mit unterschiedlichen Positionen und Skalen aufteilt – im Gegensatz zu vordefinierten, festen Patches. Auf diese Weise kann unsere Methode die Semantik innerhalb der Patches effektiv bewahren. Das DePatch-Modul fungiert als Plug-and-Play-Komponente und lässt sich problemlos in verschiedene Transformer integrieren, um eine end-to-end-Trainingsstrategie zu ermöglichen. Wir bezeichnen den so erweiterten Transformer als deformables Patch-basiertes Transformer-Modell (DPT) und führen umfassende Evaluierungen von DPT in Bezug auf Bildklassifikation und Objekterkennung durch. Die Ergebnisse zeigen, dass DPT eine Top-1-Accuracy von 81,9 % bei der ImageNet-Klassifikation erreicht und bei der Objekterkennung auf MSCOCO 43,7 % Box mAP mit RetinaNet sowie 44,3 % Box mAP mit Mask R-CNN erzielt. Der Quellcode ist unter folgender URL verfügbar: https://github.com/CASIA-IVA-Lab/DPT.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp