vor 6 Monaten

Zusammenfassung

Der Transformer hat in der Computer Vision große Erfolge erzielt, während die Aufteilung von Bildbereichen (Patches) weiterhin eine Herausforderung darstellt. Bisherige Ansätze verwenden typischerweise feste Patch-Größen bei der Patch-Embedding-Transformation, was die semantischen Informationen von Objekten möglicherweise beeinträchtigen kann. Um dieses Problem zu lösen, schlagen wir ein neues deformerbares Patch-Modul (DePatch) vor, das lernbar ist und die Bilder datengetrieben adaptiv in Patches mit unterschiedlichen Positionen und Skalen aufteilt – im Gegensatz zu vordefinierten, festen Patches. Auf diese Weise kann unsere Methode die Semantik innerhalb der Patches effektiv bewahren. Das DePatch-Modul fungiert als Plug-and-Play-Komponente und lässt sich problemlos in verschiedene Transformer integrieren, um eine end-to-end-Trainingsstrategie zu ermöglichen. Wir bezeichnen den so erweiterten Transformer als deformables Patch-basiertes Transformer-Modell (DPT) und führen umfassende Evaluierungen von DPT in Bezug auf Bildklassifikation und Objekterkennung durch. Die Ergebnisse zeigen, dass DPT eine Top-1-Accuracy von 81,9 % bei der ImageNet-Klassifikation erreicht und bei der Objekterkennung auf MSCOCO 43,7 % Box mAP mit RetinaNet sowie 44,3 % Box mAP mit Mask R-CNN erzielt. Der Quellcode ist unter folgender URL verfügbar: https://github.com/CASIA-IVA-Lab/DPT.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Zhiyang Chen Yousong Zhu Chaoyang Zhao Guosheng Hu Wei Zeng Jinqiao Wang Ming Tang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Zhiyang Chen Yousong Zhu Chaoyang Zhao Guosheng Hu Wei Zeng Jinqiao Wang Ming Tang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

DPT: Deformable Patch-based Transformer für die visuelle Erkennung | Paper | HyperAI

Command Palette

DPT: Deformable Patch-based Transformer für die visuelle Erkennung

Zhiyang Chen Yousong Zhu Chaoyang Zhao Guosheng Hu Wei Zeng Jinqiao Wang Ming Tang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DPT: Deformable Patch-based Transformer für die visuelle Erkennung

Zhiyang Chen Yousong Zhu Chaoyang Zhao Guosheng Hu Wei Zeng Jinqiao Wang Ming Tang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DPT: Deformable Patch-based Transformer für die visuelle Erkennung

Zhiyang Chen Yousong Zhu Chaoyang Zhao Guosheng Hu Wei Zeng Jinqiao Wang Ming Tang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters