
초록
대부분의 2D 인간 자세 추정 프레임워크는 히트맵의 최대값과 같은 휴리스틱을 사용하여 임의적으로 키포인트 신뢰도를 추정합니다. 이 신뢰도는 MSCOCO 데이터셋과 같은 평가 체계(AP)의 일부이지만, 최신 방법론 개발 과정에서 주목받지 못했습니다. 본 논문은 자세 추정에서의 오차 보정 문제를 처음으로 다루고 있습니다. 보정 관점에서 볼 때, 신뢰도는 자세 정확성과 일치해야 합니다. 그러나 실제로는 기존 방법론들이 제대로 보정되지 않았습니다. 우리는 이론적 분석을 통해 왜 이러한 오차 보정 간극이 존재하며 어떻게 이를 줄일 수 있는지를 설명합니다. 단순히 인스턴스 크기를 예측하고 신뢰도 함수를 조절하는 것만으로도 상당한 AP 개선 효과를 얻을 수 있음을 보여줍니다. 하지만 딥 뉴럴 네트워크의 블랙박스 특성 때문에, 폐형 조절로 이 간극을 완전히 해소할 수는 없습니다. 따라서 우리는 한 걸음 더 나아가서 신뢰도와 자세 정확성 사이의 일관성을 강제함으로써 네트워크별 조절을 학습합니다. 우리가 제안하는 보정된 신뢰도 네트워크(Calibrated ConfidenceNet, CCNet)는 경량화된 후처리 추가 기능으로, 기존 자세 추정 프레임워크에서 AP를 최대 1.4% 개선시킵니다. 메시 복원과 같은 하류 작업에 적용할 경우, CCNet은 3D 키포인트 오차를 추가로 1.0mm 감소시키는 역할을 합니다.