8일 전

딥 다중 작업 학습을 통한 손 이미지 이해

Xiong Zhang, Hongsheng Huang, Jianchao Tan, Hongmin Xu, Cheng Yang, Guozhu Peng, Lei Wang, Ji Liu
딥 다중 작업 학습을 통한 손 이미지 이해
초록

이미지나 영상과 같은 멀티미디어 자료에서 손 정보를 분석하고 이해하는 것은 다양한 실세계 응용 분야에서 중요하며, 연구계에서 여전히 활발한 주제로 남아 있다. 단일 이미지에서 손 정보를 복원하는 연구는 다양하게 진행되고 있으나, 대부분은 손 마스크 세그멘테이션, 2D/3D 손 자세 추정, 또는 손 메시 재구성과 같은 단일 작업에 집중하며, 도전적인 상황에서는 성능이 저조한 경향이 있다. 이러한 작업들의 성능을 더욱 향상시키기 위해, 본 연구에서는 단일 RGB 이미지에서 손 객체의 종합적인 정보를 추출하기 위한 새로운 핸드 이미지 이해(Hand Image Understanding, HIU) 프레임워크를 제안한다. 이 프레임워크는 여러 작업 간의 상호 관계를 종합적으로 고려함으로써, 종합적인 손 정보를 효과적으로 추출할 수 있도록 설계되었다. 이를 달성하기 위해, 2D 히트맵 추정, 세그멘테이션 마스크 학습, 중간 단계의 3D 정보 인코딩 생성을 동시에 수행하는 계단식 다중 작업 학습(Multi-Task Learning, MTL) 백본을 설계하였으며, 거기에 거친 단계에서 세밀한 단계로 나아가는 학습 프레임워크와 자기지도 학습(self-supervised learning) 전략을 도입하였다. 정성적 실험 결과, 본 방법은 도전적인 상황에서도 합리적인 메시 표현을 복원할 수 있음을 입증하였다. 정량적 평가에서는 다양한 평가 지표를 기준으로, 여러 널리 사용되는 데이터셋에서 최신 기술(SOTA)보다 뚜렷한 성능 우위를 보였다.