Menschliche Pose-Beschreibungen und themenfokussierte Aufmerksamkeit zur Verbesserung des Zero-Shot-Transfers bei menschenzentrierten Klassifikationsaufgaben

Wir präsentieren einen neuartigen, auf LLMs basierenden Pipeline-Ansatz zur Erstellung kontextueller Beschreibungen menschlicher Körperhaltungen in Bildern unter Verwendung lediglich von Hilfsattributen. Dieser Ansatz ermöglicht die Erstellung der MPII Pose Descriptions-Datenbank, die natürlichsprachliche Annotationen für 17.367 Bilder mit Menschen in 410 unterschiedlichen Aktivitäten enthält. Wir zeigen die Wirksamkeit unserer Haltungsbeschreibungen bei der Durchführung von zero-shot, menschenzentrierten Klassifikationen mit CLIP. Darüber hinaus führen wir den FocusCLIP-Framework ein, das Subject-Focused Attention (SFA) in CLIP integriert, um die Text-zu-Bild-Alignment zu verbessern. Unsere Modelle wurden auf der MPII Pose Descriptions-Datenbank vortrainiert und ihre zero-shot-Leistung wurde auf fünf bisher unbekannte Datensätze evaluiert, die drei unterschiedliche Aufgaben abdecken. FocusCLIP übertrifft das Basismodell CLIP und erreicht eine durchschnittliche Steigerung der Genauigkeit um 8,61 % (33,65 % gegenüber CLIPs 25,04 %). Insbesondere erzielen wir Verbesserungen von 3,98 % bei der Aktivitätsklassifikation, 14,78 % bei der Altersklassifikation und 7,06 % bei der Emotionsklassifikation. Diese Ergebnisse unterstreichen das Potenzial, detaillierte Haltungsbeschreibungen und subjektbasierte Anleitungen in allgemeine Vortrainingsframeworks zu integrieren, um die Leistung in nachgeschalteten Aufgaben zu verbessern.