HyperAIHyperAI

Command Palette

Search for a command to run...

PE-Former: Pose Estimation Transformer

Paschalis Panteleris Antonis Argyros

Zusammenfassung

Vision-Transformer-Architekturen haben sich bei Aufgaben der Bildklassifikation als äußerst effektiv erwiesen. Bei der Bewältigung anspruchsvollerer visueller Aufgaben stützen sich bisherige Ansätze auf konvolutionale Backbone-Netzwerke zur Merkmalsextraktion. In diesem Paper untersuchen wir die Anwendung einer reinen Transformer-Architektur (d. h. ohne CNN-Backbone) für das Problem der 2D-Körperpose-Schätzung. Wir evaluieren zwei ViT-Architekturen auf dem COCO-Datensatz und zeigen, dass die Verwendung einer Encoder-Decoder-Transformer-Architektur state-of-the-art-Ergebnisse für diese Schätzaufgabe erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp