
인간 얼굴에서 행동 단위(AUs)를 감지하는 것은 다양한 AUs가 서로 다른 규모의 여러 영역에서 미묘한 얼굴 변화를 일으키기 때문에 어려운 문제입니다. 현재 연구에서는 중요한 영역을 강조하여 AUs를 인식하려는 시도가 이루어졌습니다. 그러나 전문가의 사전 지식을 영역 정의에 통합하는 방법은 아직 충분히 활용되지 않았으며, 현재 AUs 검출 접근 방식들은 전문가의 사전 지식을 이용해 적응적으로 AU 관련 영역에 집중하는 지역별 합성곱 신경망(R-CNN)을 사용하지 않습니다.전문가의 사전 지식을 통합하여, 우리는 새로운 R-CNN 기반 모델인 AU R-CNN을 제안합니다. 제안된 해결책은 두 가지 주요 기여점을 제공합니다: (1) AU R-CNN은 다양한 AUs가 위치한 서로 다른 얼굴 영역을 직접 관찰합니다. 구체적으로, 우리는 전문가의 사전 지식을 영역 정의와 RoI(Region of Interest) 수준 라벨 정의에 포함시키는 AU 분할 규칙을 정의하였습니다. 이 설계는 기존 접근 방식보다 상당히 더 우수한 검출 성능을 제공합니다. (2) 우리는 합성곱 장단기 메모리(CLTSM), 두 스트림 네트워크(Two Stream Network), 조건부 랜덤 필드(CRF), 시간적 행동 위치화 네트워크(TALN) 등 다양한 동적 모델들을 AU R-CNN에 통합하고, 동적 모델들의 성능 배경을 조사 및 분석하였습니다.실험 결과, \textit{정적인} RGB 이미지 정보만으로 구성되고 광학 흐름 기반 정보를 사용하지 않는 AU R-CNN이 동적 모델과 융합된 것보다 우수함이 입증되었습니다. 또한, 같은 백본(backbone)을 사용하는 전통적인 CNNs보다 다양한 이미지 해상도에서 AU R-CNN이 우월함이 확인되었습니다. 최고 수준의 AU 검출 인식 성능이 달성되었으며, 전체 네트워크는 엔드투엔드(end-to-end)로 학습 가능합니다. BP4D와 DISFA 데이터셋에서 수행된 실험은 우리의 접근 방식의 효과성을 보여주었습니다. 해당 구현 코드는 온라인에서 제공됩니다.