2달 전
CapeLLM: 멀티모달 대형 언어 모델을 이용한 제약 없고 범주에 구애받지 않는 포즈 추정
Kim, Junho ; Chung, Hyungjin ; Kim, Byung-Hoon

초록
범주 무관한 자세 추정(CAPE)은 전통적으로 주석이 달린 지점(키포인트)을 포함하는 지원 이미지에 의존해 왔으며, 이 과정은 종종 번거롭고 다양한 객체 범주 간의 필요한 대응 관계를 완전히 포착하지 못할 가능성이 있습니다. 최근 연구에서는 키포인트를 위한 지원 지점을 필요로 하지 않는 텍스트 기반 쿼리를 활용하기 시작했습니다. 그러나 키포인트에 대한 텍스트 설명의 최적 사용은 여전히 탐구되지 않은 영역입니다. 본 연구에서는 CapeLLM이라는 새로운 접근 방식을 소개합니다. 이 방법은 텍스트 기반 다중 모달 대형 언어 모델(MLLM)을 활용하여 CAPE를 수행하며, 입력으로는 쿼리 이미지와 상세한 텍스트 설명만을 사용하여 범주 무관한 키포인트를 추정합니다. 우리는 LLM 기반 CAPE의 설계 공간을 체계적으로 탐색하기 위해 광범위한 실험을 수행하였으며, 키포인트에 대한 최적의 설명 선택, 신경망 아키텍처, 학습 전략 등의 요소를 조사하였습니다. 사전 학습된 MLLM의 고급 추론 능력 덕분에, CapeLLM은 우수한 일반화 능력과 강건한 성능을 보여줍니다. 우리의 접근 방식은 도전적인 1-shot 설정에서 MP-100 벤치마크에서 새로운 최고 수준의 성능(SOTA)을 달성하여, 범주 무관한 자세 추정 분야에서 중요한 진보를 이루었습니다.