11일 전
인간 포즈 설명과 주제 중심 주의를 통한 인간 중심 분류 작업에서의 개선된 제로샷 전이
Muhammad Saif Ullah Khan, Muhammad Ferjad Naeem, Federico Tombari, Luc Van Gool, Didier Stricker, Muhammad Zeshan Afzal

초록
우리는 보조적 속성만을 사용하여 이미지 내 인간의 자세에 대한 맥락적 설명을 생성하는 새로운 LLM 기반 파이프라인을 제안한다. 본 방법은 17,367개의 이미지(410가지 서로 다른 활동에 종사하는 사람 포함)에 대한 자연어 주석을 포함하는 MPII 자세 설명 데이터셋(MPII Pose Descriptions dataset)을 구축하는 데 기여한다. 제안된 자세 설명의 효과성을 입증하기 위해 CLIP을 활용한 제로샷 인간 중심 분류를 수행하였으며, 텍스트-이미지 정렬을 향상시키기 위해 주제 중심 주의(Subject-Focused Attention, SFA)를 도입한 FocusCLIP 프레임워크를 제시한다. 본 연구에서 개발한 모델은 MPII 자세 설명 데이터셋에서 사전학습되었으며, 세 가지 작업을 포함하는 다섯 개의 새로운 데이터셋에서 제로샷 성능을 평가하였다. FocusCLIP은 기준 모델인 CLIP보다 평균 정확도에서 8.61% 향상된 성능을 기록하였으며, 전체 정확도는 33.65%로 CLIP의 25.04% 대비 상승하였다. 특히, 활동 인식에서는 3.98% 향상되었고, 나이 분류에서는 14.78%, 감정 인식에서는 7.06%의 성능 향상이 이루어졌다. 이러한 결과는 상세한 자세 설명과 주제 수준의 안내 정보를 일반적인 사전학습 프레임워크에 통합함으로써 후속 작업에서의 성능 향상 가능성을 시사한다.