혼잡한 장면에서 인간 이해: 심층 중첩 적대적 학습 및 다중 인간 해석을 위한 새로운 벤치마크

감지, 인스턴스 분할, 인간 해석 등의 지각 작업에서 눈에 띄는 진전이 이루어졌음에도 불구하고, 컴퓨터는 여전히 군중 장면에서의 시각적 인간 이해, 예를 들어 그룹 행동 분석, 개인 재식별, 자율 주행 등에서 만족스럽지 않은 성능을 보입니다. 이를 해결하기 위해 모델은 다중 인간 이미지에서 의미론적 정보와 인스턴스 간의 차이를 포괄적으로 인식해야 하며, 이는 최근 다중 인간 해석(multi-human parsing) 작업으로 정의되었습니다. 본 논문에서는 알고리즘 개발 및 평가를 위한 새로운 대규모 데이터베이스 "다중 인간 해석(Multi-Human Parsing, MHP)"을 소개하며, 군중 장면에서의 인간 이해 기술을 한 단계 더 발전시킵니다. MHP는 25,403개의 세심하게 주석화된 이미지를 포함하고 있으며, 각 이미지는 2-26명의 사람으로 구성되어 있고 실제 환경에서 다양한 시점, 자세, 가림 현상(occlusion), 상호작용 및 배경을 포착한 것입니다. 또한 우리는 다중 인간 해석을 위한 새로운 딥 중첩 적대 네트워크(Nested Adversarial Network, NAN) 모델을 제안합니다. NAN은 의미론적 주요성 예측, 인스턴스 무관 파싱(instance-agnostic parsing), 인스턴스 관련 클러스터링(instance-aware clustering)을 각각 수행하는 세 개의 생성적 적대 네트워크(Generative Adversarial Network, GAN) 유형의 서브넷으로 구성됩니다. 이러한 서브넷들은 중첩 구조를 형성하며 엔드투엔드 방식으로 공동 학습하도록 신경 쓰여 설계되었습니다. NAN은 우리의 MHP 데이터셋과 다른 여러 데이터셋에서 기존 최신 솔루션보다 일관되게 우수한 성능을 보이며, 다중 인간 해석 연구의 미래 발전을 위한 강력한 베이스라인 역할을 합니다.