2달 전
개선된 입모양 읽기 위한 훈련 전략
Ma, Pingchuan ; Wang, Yujiang ; Petridis, Stavros ; Shen, Jie ; Pantic, Maja

초록
최근 여러 훈련 전략과 시간 모델이 독립적인 연구 시리즈에서 단어 읽기용 입술 동작 인식을 위해 제안되었습니다. 그러나 최고의 전략들을 결합하고 각각의 영향을 조사하는 것은 아직 이루어지지 않았습니다. 본 논문에서는 최신 데이터 증강 방법, 시간 모델 및 자기 정제(self-distillation)와 단어 경계 지시자(word boundary indicators) 사용 등의 다른 훈련 전략의 성능을 체계적으로 조사하였습니다. 결과는 시간 마스킹(Time Masking, TM)이 가장 중요한 증강 기법이며, mixup 다음으로 중요하며, 밀집 연결된 시간 합성곱 네트워크(Densely-Connected Temporal Convolutional Networks, DC-TCN)가 단일 단어 읽기용 입술 동작 인식에 가장 우수한 시간 모델임을 보여주었습니다. 자기 정제와 단어 경계 지시자를 사용하는 것도 유익하지만 그 정도는 상대적으로 적습니다. 위의 모든 방법들을 결합하면 LRW 데이터셋에서 현재 최고 수준의 성능보다 절대적으로 4.6% 개선된 93.4%의 분류 정확도를 얻을 수 있습니다. 추가 데이터셋에서 사전 훈련함으로써 성능은 더 나아져 94.1%까지 향상될 수 있습니다. 다양한 훈련 전략들의 오류 분석은 인식하기 어려운 단어들의 분류 정확도가 향상됨에 따라 전체 성능이 개선되는 것을 보여줍니다.