HyperAIHyperAI
vor 17 Tagen

PE-Former: Pose Estimation Transformer

Paschalis Panteleris, Antonis Argyros
PE-Former: Pose Estimation Transformer
Abstract

Vision-Transformer-Architekturen haben sich bei Aufgaben der Bildklassifikation als äußerst effektiv erwiesen. Bei der Bewältigung anspruchsvollerer visueller Aufgaben stützen sich bisherige Ansätze auf konvolutionale Backbone-Netzwerke zur Merkmalsextraktion. In diesem Paper untersuchen wir die Anwendung einer reinen Transformer-Architektur (d. h. ohne CNN-Backbone) für das Problem der 2D-Körperpose-Schätzung. Wir evaluieren zwei ViT-Architekturen auf dem COCO-Datensatz und zeigen, dass die Verwendung einer Encoder-Decoder-Transformer-Architektur state-of-the-art-Ergebnisse für diese Schätzaufgabe erzielt.