
인체 자세 추정과 의미 부위 분할은 컴퓨터 비전에서 상호 보완적인 두 가지 작업입니다. 본 논문에서는 자연스러운 다중 인물 이미지에 대해 이 두 작업을 동시에 해결하는 방법을 제안합니다. 여기서 추정된 자세는 객체 수준의 형태 사전 정보를 제공하여 부위 분할을 규제하며, 부위 수준의 분할은 자세 위치의 변동성을 제약합니다.구체적으로, 먼저 포즈 FCN(Pose FCN)과 파트 FCN(Part FCN)이라는 두 개의 완전 연결 컨볼루션 신경망(Fully Convolutional Neural Networks, FCNs)을 훈련시켜 자세 관절 잠재력과 의미 부위 잠재력을 초기 추정값으로 제공합니다. 그런 다음, 자세 관절 위치를 정교화하기 위해 두 종류의 잠재력이 완전 연결 조건부 랜덤 필드(Fully-Connected Conditional Random Field, FCRF)와 융합되며, 여기서 새로운 세그먼트-관절 평활성 항목이 부위와 관절 사이의 의미적 및 공간적 일관성을 촉진하는 역할을 합니다. 또한, 부위 분할을 정교화하기 위해 정교화된 자세와 원래의 부위 잠재력이 파트 FCN(Part FCN)을 통해 통합되며, 여기서 포즈에서 얻은 골격 특성이 부위 분할에 대한 추가적인 규제 신호로 작용합니다.마지막으로, FCRF의 복잡성을 줄이기 위해 인간 감지 박스를 유도하고 각 박스 내부에서 그래프를 추론하여 추론 속도를 40배 빠르게 만듭니다.현재 두 가지 작업 모두에 대한 라벨이 포함된 데이터셋이 없으므로, PASCAL VOC 파트 데이터셋에 인간 자세 관절을 확장하여 최근 몇몇 전략들과 비교하기 위한 광범위한 실험을 수행했습니다. 실험 결과 본 알고리즘이 이 데이터셋에서 두 작업 모두에서 경쟁 방법들을 크게 능가함을 보였습니다.