실시간 인간 중심 세그멘테이션을 위한 복잡한 비디오 장면 분석

대부분의 기존 "사람" 관련 비디오 작업은 주요한 사람들의 분할에 초점을 맞추고, 비디오 내의 지정되지 않은 다른 사람들을 무시합니다. 복잡한 비디오에서 모든 사람, 보행자 및 다른 상태(예: 앉아 있는, 타고 있는, 가려진)의 사람을 분할하고 추적하는 연구는 거의 이루어지지 않았습니다. 본 논문에서는 주어진 비디오에서 등장하는 모든 사람을 단일 단계 검출기(one-stage detector)를 기반으로 분할하고 추적하는 새로운 프레임워크인 HVISNet(Human Video Instance Segmentation Network)을 제안합니다.복잡한 장면을 더 잘 평가하기 위해, 우리는 다양한 상황에서 805개의 고해상도 비디오에 포함된 1447개의 인간 인스턴스 마스크로 구성된 새로운 벤치마크인 HVIS(Human Video Instance Segmentation)를 제공합니다. 광범위한 실험 결과, 제안된 HVISNet이 실시간 추론 속도(30 FPS)에서 정확성 면에서 최신 방법들을 능가하며, 특히 복잡한 비디오 장면에서 더욱 우수함을 확인하였습니다. 또한, 경계 상자의 중심을 사용하여 서로 다른 개인을 구별하는 것이 특히 심각하게 가려진 조건에서 분할 정확성을 크게 저하시킨다는 점을 발견하였습니다. 이러한 일반적인 현상을 모호한 양성 샘플 문제(ambiguous positive samples problem)라고 합니다.이 문제를 완화하기 위해, 인스턴스 분할 정확성을 향상시키는 Inner Center Sampling이라는 메커니즘을 제안합니다. 이 플러그-앤플레이(plug-and-play) 방식의 내부 중심 샘플링 메커니즘은 단일 단계 검출기를 기반으로 하는 어떤 인스턴스 분할 모델에도 통합될 수 있으며 성능 향상을 가져올 수 있습니다. 특히, 가려진 사람들의 경우 최신 방법에 대해 4.1 mAP(median Average Precision) 개선 효과를 나타냈습니다. 코드와 데이터는 https://github.com/IIGROUP/HVISNet 에서 이용 가능합니다.