2달 전

개선된 입모양 읽기 위한 훈련 전략

Ma, Pingchuan ; Wang, Yujiang ; Petridis, Stavros ; Shen, Jie ; Pantic, Maja
개선된 입모양 읽기 위한 훈련 전략
초록

최근 여러 훈련 전략과 시간 모델이 독립적인 연구 시리즈에서 단어 읽기용 입술 동작 인식을 위해 제안되었습니다. 그러나 최고의 전략들을 결합하고 각각의 영향을 조사하는 것은 아직 이루어지지 않았습니다. 본 논문에서는 최신 데이터 증강 방법, 시간 모델 및 자기 정제(self-distillation)와 단어 경계 지시자(word boundary indicators) 사용 등의 다른 훈련 전략의 성능을 체계적으로 조사하였습니다. 결과는 시간 마스킹(Time Masking, TM)이 가장 중요한 증강 기법이며, mixup 다음으로 중요하며, 밀집 연결된 시간 합성곱 네트워크(Densely-Connected Temporal Convolutional Networks, DC-TCN)가 단일 단어 읽기용 입술 동작 인식에 가장 우수한 시간 모델임을 보여주었습니다. 자기 정제와 단어 경계 지시자를 사용하는 것도 유익하지만 그 정도는 상대적으로 적습니다. 위의 모든 방법들을 결합하면 LRW 데이터셋에서 현재 최고 수준의 성능보다 절대적으로 4.6% 개선된 93.4%의 분류 정확도를 얻을 수 있습니다. 추가 데이터셋에서 사전 훈련함으로써 성능은 더 나아져 94.1%까지 향상될 수 있습니다. 다양한 훈련 전략들의 오류 분석은 인식하기 어려운 단어들의 분류 정확도가 향상됨에 따라 전체 성능이 개선되는 것을 보여줍니다.

개선된 입모양 읽기 위한 훈련 전략 | 최신 연구 논문 | HyperAI초신경