Hulk: 인간 중심 작업을 위한 보편적 지식 번역기

사람 중심 인식 작업, 예를 들어 보행자 감지, 스켈레톤 기반 행동 인식, 자세 추정 등은 메타버스와 스포츠 분석과 같은 다양한 산업 분야에서 널리 적용되고 있습니다. 최근에는 이러한 사람 중심 인식 작업에 이점을 제공할 수 있는 사람 중심 기초 모델의 개발이 급증하고 있습니다. 많은 사람 중심 기초 모델들이 성공을 거두었지만, 3D 및 시각-언어 작업에 대한 탐구는 부족했으며 특정 작업에 대한 미세 조정(finetuning)이 필요했습니다. 이러한 제한 사항은 더 많은 다운스트림 작업과 상황으로의 응용을 제약하였습니다.이러한 문제를 해결하기 위해, 우리는 Hulk라는 첫 번째 다중 모달(multimodal) 사람 중심 일반 모델을 소개합니다. Hulk는 특정 작업에 대한 미세 조정 없이 2D 시각, 3D 시각, 스켈레톤 기반, 시각-언어 작업을 처리할 수 있는 능력을 갖추고 있습니다. 이를 달성하는 핵심은 다양한 특정 작업 헤드(task-specific heads)를 두 개의 일반 헤드로 축소하는 것입니다. 하나는 이산 표현(discrete representations), 예를 들어 언어, 다른 하나는 연속 표현(continuous representations), 예를 들어 위치 좌표 등을 처리합니다. 두 헤드의 출력은 네 가지 구별되는 입력 및 출력 모달로 더 나아가 결합될 수 있습니다. 이러한 통일된 표현은 Hulk가 다양한 사람 중심 인식 작업을 모달 변환(modality translation)으로 취급하여 광범위한 작업 간 지식을 통합할 수 있게 합니다.Hulk는 8개의 사람 중심 인식 작업을 포함하는 12개 벤치마크에서 폭넓게 평가되었으며, 제안된 방법론의 우수성을 입증하였습니다. 특히 11개 벤치마크에서 최고 수준의 성능(state-of-the-art performance)을 달성하였습니다. 코드는 https://github.com/OpenGVLab/Hulk 에서 확인 가능합니다.