DPT: Deformable Patch-based Transformer für die visuelle Erkennung

Der Transformer hat in der Computer Vision große Erfolge erzielt, während die Aufteilung von Bildbereichen (Patches) weiterhin eine Herausforderung darstellt. Bisherige Ansätze verwenden typischerweise feste Patch-Größen bei der Patch-Embedding-Transformation, was die semantischen Informationen von Objekten möglicherweise beeinträchtigen kann. Um dieses Problem zu lösen, schlagen wir ein neues deformerbares Patch-Modul (DePatch) vor, das lernbar ist und die Bilder datengetrieben adaptiv in Patches mit unterschiedlichen Positionen und Skalen aufteilt – im Gegensatz zu vordefinierten, festen Patches. Auf diese Weise kann unsere Methode die Semantik innerhalb der Patches effektiv bewahren. Das DePatch-Modul fungiert als Plug-and-Play-Komponente und lässt sich problemlos in verschiedene Transformer integrieren, um eine end-to-end-Trainingsstrategie zu ermöglichen. Wir bezeichnen den so erweiterten Transformer als deformables Patch-basiertes Transformer-Modell (DPT) und führen umfassende Evaluierungen von DPT in Bezug auf Bildklassifikation und Objekterkennung durch. Die Ergebnisse zeigen, dass DPT eine Top-1-Accuracy von 81,9 % bei der ImageNet-Klassifikation erreicht und bei der Objekterkennung auf MSCOCO 43,7 % Box mAP mit RetinaNet sowie 44,3 % Box mAP mit Mask R-CNN erzielt. Der Quellcode ist unter folgender URL verfügbar: https://github.com/CASIA-IVA-Lab/DPT.