
초록
우리의 목표는 랜드마크 정위에 있어 혁신적인 성능을 유지하면서도 경량화되고 소형화되어 제한된 계산 자원을 가진 응용 프로그램에 적합한 컨벌루션 신경망(CNNs) 아키텍처를 설계하는 것입니다. 이를 위해 다음과 같은 기여를 하였습니다: (a) 우리는 최초로 신경망 이진화가 위치 추정 작업, 즉 인간 포즈 추정과 얼굴 정렬에 미치는 영향을 연구하였습니다. 다양한 설계 선택 사항을 철저히 평가하고 성능 병목 현상을 식별하였으며, 더욱 중요한 것은 성능 향상을 위한 여러 개의 직교적 방법을 제안하였습니다. (b) 우리의 분석을 바탕으로, 표준 병목 블록과 동일한 매개변수 수를 가지면서도 큰 성능 향상을 가져오는 새로운 계층적, 병렬적이고 다중 스케일 잔차 아키텍처를 제안하였습니다. 이는 원래 네트워크와 그 이진화된 대응체 사이의 격차를 좁히는데 기여합니다. (c) 우리는 많은 수의 축소 실험(ablation studies)을 수행하여 제안된 블록의 특성과 성능에 대한 이해를 돕습니다. (d) 가장 도전적인 인간 포즈 추정 및 얼굴 정렬 데이터셋에서의 실험 결과를 제시하며, 많은 경우에서 최고 수준의 성능을 보고합니다. (e) 또한 얼굴 부위 세분화(facial part segmentation) 문제에 대한 추가 결과도 제공합니다. 코드는 https://www.adrianbulat.com/binary-cnn-landmark 에서 다운로드할 수 있습니다.