2달 전

PLIP: 언어-이미지 사전 학습을 통한 사람 표현 학습

Jialong Zuo; Jiahao Hong; Feng Zhang; Changqian Yu; Hanyu Zhou; Changxin Gao; Nong Sang; Jingdong Wang
PLIP: 언어-이미지 사전 학습을 통한 사람 표현 학습
초록

언어-이미지 사전 학습은 일반 영역에서 강력한 표현을 학습하는 효과적인 기술입니다. 그러나 사람 표현 학습으로 직접 전환할 때, 이러한 일반적인 사전 학습 방법들은 만족스럽지 않은 성능을 보입니다. 그 이유는 사람들이 관련된 중요한 특성, 즉 세부적인 속성과 정체성을 간과하기 때문입니다. 이 문제를 해결하기 위해, 우리는 사람 표현 학습을 위한 새로운 언어-이미지 사전 학습 프레임워크인 PLIP(Person Language-Image Pre-training)를 제안합니다. 구체적으로, 우리는 세 가지 예상 작업(pretext task)을 철저히 설계하였습니다: 1) 텍스트 안내 이미지 색채화(Text-guided Image Colorization), 이는 사람이 관련된 이미지 영역과 세부적인 색상-부분 텍스트 문구 사이의 대응 관계를 설정하는 것을 목표로 합니다. 2) 이미지 안내 속성 예측(Image-guided Attributes Prediction), 이는 이미지 내 사람 몸체의 세부적인 속성 정보를 추출하는 것을 목표로 합니다. 3) 정체성 기반 시각-언어 대조(Identity-based Vision-Language Contrast), 이는 인스턴스 수준이 아닌 정체성 수준에서 다중 모달 표현 간의 연관성을 확립하는 것을 목표로 합니다.또한, 우리의 사전 학습 프레임워크를 구현하기 위해, 우리는 자동으로 텍스트 주석을 생성하여 구성된 대규모 사람 데이터셋인 SYNTH-PEDES를 구축하였습니다. 우리는 SYNTH-PEDES에서 PLIP를 사전 학습하고, 하류 사람 중심 작업들을 통해 우리의 모델을 평가하였습니다. PLIP는 이러한 모든 작업에서 기존 방법들보다 크게 성능을 개선했으며, 제로샷(zero-shot) 및 도메인 일반화(domain generalization) 설정에서도 뛰어난 능력을 보였습니다. 코드, 데이터셋 및 가중치는~\url{https://github.com/Zplusdragon/PLIP}에서 공개될 예정입니다.

PLIP: 언어-이미지 사전 학습을 통한 사람 표현 학습 | 최신 연구 논문 | HyperAI초신경