2달 전

외관을 넘어서: 인간 중심 시각적 작업을 위한 의미론적으로 제어 가능한 자기 지도 학습 프레임워크

Weihua Chen; Xianzhe Xu; Jian Jia; Hao luo; Yaohua Wang; Fan Wang; Rong Jin; Xiuyu Sun
외관을 넘어서: 인간 중심 시각적 작업을 위한 의미론적으로 제어 가능한 자기 지도 학습 프레임워크
초록

사람 중심 시각적 작업은 그들의 광범위한 응용 분야로 인해 점점 더 많은 연구 관심을 받고 있습니다. 본 논문에서는 대량의 라벨이 없는 사람 이미지에서 일반적인 사람 표현을 학습하여, 하류 사람 중심 작업에 최대한 이점을 제공하는 것을 목표로 합니다. 이를 위해 우리는 SOLIDER(Semantic cOntrollable seLf-supervIseD lEaRning)라는 의미 제어 가능한 자기 감독 학습 프레임워크를 제안합니다. 기존의 자기 감독 학습 방법과 달리, SOLIDER는 사람 이미지에서 사전 지식을 활용하여 가상의 의미 라벨을 구축하고 학습된 표현에 더 많은 의미 정보를 도입합니다.한편, 우리는 다양한 하류 작업이 항상 다른 비율의 의미 정보와 외관 정보를 요구한다는 점을 주목하였습니다. 예를 들어, 사람 파싱은 더 많은 의미 정보가 필요하지만, 개인 재식별은 식별 목적을 위해 더 많은 외관 정보가 필요합니다. 따라서 단일 학습된 표현으로 모든 요구사항을 충족시키기는 어렵습니다. 이러한 문제를 해결하기 위해, SOLIDER는 의미 컨트롤러를 갖춘 조건부 네트워크를 도입하였습니다. 모델이 훈련된 후 사용자는 컨트롤러에 값을 전송하여 서로 다른 비율의 의미 정보를 포함하는 표현을 생성할 수 있으며, 이는 하류 작업의 다양한 요구사항에 맞출 수 있습니다.마지막으로, SOLIDER는 여섯 가지 하류 사람 중심 시각적 작업에서 검증되었습니다. 이는 기존 최신 기술들을 능가하고 이러한 작업들에 대한 새로운 베이스라인을 구축하였습니다. 코드는 https://github.com/tinyvision/SOLIDER 에서 공개되었습니다.

외관을 넘어서: 인간 중심 시각적 작업을 위한 의미론적으로 제어 가능한 자기 지도 학습 프레임워크 | 최신 연구 논문 | HyperAI초신경