
얼굴의 동작 단위(Action Unit, AU) 탐지 분야에서 최근 지역 학습(region learning, RL)과 다중 레이블 학습(multi-label learning, ML)에 대한 관심이 점차 증가하고 있다. AUs는 얼굴의 희소한 지역에서 활성화된다는 점을 고려할 때, RL은 보다 정밀한 탐지를 위해 이러한 중요한 지역을 식별하는 데 목적이 있다. 한편, AU 간의 강력한 통계적 상관관계는 ML이 탐지 작업을 모델링하는 자연스러운 방법임을 시사한다. 본 논문에서는 이러한 두 문제를 동시에 해결하는 통합적인 딥 네트워크인 Deep Region and Multi-label Learning(DRML)을 제안한다. DRML의 핵심 요소 중 하나는 전방 전달(feed-forward) 함수를 이용해 중요한 얼굴 지역을 유도하는 새로운 지역 레이어(region layer)이다. 이 레이어는 학습된 가중치가 얼굴의 구조적 정보를 포착하도록 유도하며, 개별 픽셀에 제한된 국소 연결 레이어(local connected layers)와 전체 이미지에 공유되는 전통적인 합성곱 레이어(convolution layers) 사이의 대안적인 설계를 제공한다. 기존 연구들이 RL과 ML 문제를 번갈아가며 해결하는 반면, DRML은 구성상 두 문제를 동시에 다루며, 서로 관련이 없는 것으로 여겨졌던 두 문제 간의 직접적인 상호작용을 가능하게 한다. 전체 네트워크는 엔드 투 엔드(end-to-end) 학습이 가능하며, 국소 영역 내에 내재된 변동성에 대해 강건한 표현을 자동으로 학습한다. BP4D 및 DISFA 벤치마크에서의 실험 결과, 다른 대안적 방법들과 비교하여 DRML은 데이터셋 내외에서 가장 높은 평균 F1 점수와 AUC를 달성함을 확인하였다.