10일 전

시계열 컨볼루션 네트워크를 이용한 리핑 읽기

Brais Martinez, Pingchuan Ma, Stavros Petridis, Maja Pantic
시계열 컨볼루션 네트워크를 이용한 리핑 읽기
초록

최근 딥러닝 기술의 발전으로 인해 입술 읽기(lip-reading)에 대한 연구 관심이 크게 증가하고 있다. 현재까지의 고립된 단어 인식 분야에서 최고 성능을 기록하는 모델은 잔차 네트워크(residual network)와 양방향 게이트형 순환 단위(Bidirectional Gated Recurrent Unit, BGRU) 계층으로 구성되어 있다. 본 연구에서는 이 모델의 한계를 진단하고 성능을 더욱 향상시키기 위한 개선 방안을 제안한다. 첫째, BGRU 계층을 시간적 컨볼루션 네트워크(Temporal Convolutional Networks, TCN)로 대체한다. 둘째, 훈련 절차를 크게 단순화하여 모델을 단일 단계(staged)로 훈련할 수 있도록 한다. 셋째, 기존 최고 성능 모델이 시퀀스 길이의 변화에 대해 일반화 성능이 낮다는 문제를 지적하고, 이를 해결하기 위해 가변 길이 증강(Variable-length augmentation) 기법을 제안한다. 본 연구는 영어와 중국어 고립 단어 인식을 위한 가장 큰 공개 데이터셋인 LRW와 LRW1000에서 실험 결과를 제시한다. 제안하는 모델은 각각 1.2%, 3.2%의 절대적인 성능 향상을 달성하였으며, 이는 각각의 데이터셋에서 새로운 최고 성능(SOTA) 기록이다.

시계열 컨볼루션 네트워크를 이용한 리핑 읽기 | 최신 연구 논문 | HyperAI초신경