HyperAIHyperAI
vor 15 Tagen

AggPose: Deep Aggregation Vision Transformer für die Pose-Schätzung bei Säuglingen

Xu Cao, Xiaoye Li, Liya Ma, Yi Huang, Xuan Feng, Zening Chen, Hongwu Zeng, Jianguo Cao
AggPose: Deep Aggregation Vision Transformer für die Pose-Schätzung bei Säuglingen
Abstract

Die Beurteilung von Bewegung und Körperhaltung bei Neugeborenen ermöglicht es erfahrenen Kinderärzten, neuroentwicklungsbedingte Störungen vorherzusagen und damit frühzeitige Interventionen für damit verbundene Erkrankungen einzuleiten. Allerdings konzentrieren sich die meisten neuesten Ansätze der künstlichen Intelligenz für die menschliche Körperhaltungsschätzung auf Erwachsene und fehlt ein öffentlich verfügbares Benchmark-Dataset für die Körperhaltungsschätzung bei Säuglingen. In diesem Paper schließen wir diese Lücke, indem wir ein neues Säuglings-Haltungsdatensatz und einen Deep Aggregation Vision Transformer für die menschliche Körperhaltungsschätzung vorstellen. Dieser Ansatz führt einen schnell trainierbaren, vollständig transformatorbasierten Rahmen ein, der keine konvolutionalen Operationen in den frühen Stufen zur Merkmalsextraktion verwendet. Er verallgemeinert den Ansatz Transformer + MLP auf eine tiefe Aggregation von Merkmalskarten mit hoher Auflösung, wodurch eine Informationsfusion zwischen verschiedenen visuellen Ebenen ermöglicht wird. Wir prätrainieren AggPose auf dem COCO-Pose-Datensatz und wenden es auf unseren neu veröffentlichten, großskaligen Datensatz zur Säuglings-Haltungsschätzung an. Die Ergebnisse zeigen, dass AggPose in der Lage ist, effektiv mehrskalige Merkmale über verschiedene Auflösungen hinweg zu lernen und die Leistung der Säuglings-Haltungsschätzung signifikant zu verbessern. Wir demonstrieren, dass AggPose sowohl gegenüber dem hybriden Modell HRFormer als auch gegenüber TokenPose im Säuglings-Haltungsdatensatz übertrifft. Zudem erreicht AggPose im Durchschnitt eine Verbesserung von 0,8 AP gegenüber HRFormer auf dem COCO-Validierungsdatensatz für die Körperhaltungsschätzung. Unser Code ist unter github.com/SZAR-LAB/AggPose verfügbar.

AggPose: Deep Aggregation Vision Transformer für die Pose-Schätzung bei Säuglingen | Neueste Forschungsarbeiten | HyperAI