9일 전

LCANet: 단계적 주의 메커니즘-CTC를 이용한 엔드투엔드 리핑

{Nick Cassimatis, Xiaolong Wang, Kai Xu, Dawei Li}
LCANet: 단계적 주의 메커니즘-CTC를 이용한 엔드투엔드 리핑
초록

머신 리핑(머신 입술 읽기)은 인간의 말을 입술, 얼굴, 혀 등의 얼굴 부위의 움직임을 시각적으로 해석함으로써 음성 내용을 텍스트로 변환하는 특수한 자동 음성 인식(ASR) 기술이다. 최근 딥 뉴럴 네트워크 기반의 입술 읽기 기법들이 큰 잠재력을 보이며, 일부 벤치마크 데이터셋에서는 숙련된 인간의 입술 읽기 능력을 넘어선 정확도를 달성하고 있다. 그러나 여전히 입술 읽기는 해결되지 않은 문제이며, 기존 방법들은 실세계 데이터(wild data)에서 높은 오류율을 보이고 있다. 본 논문에서는 엔드 투 엔드 딥 뉴럴 네트워크 기반의 입술 읽기 시스템인 LCANet을 제안한다. LCANet은 입력 영상을 스택형 3D 컨볼루션 신경망(CNN), 하이웨이 네트워크, 양방향 GRU 네트워크를 이용해 인코딩한다. 이 인코더는 단기적 및 장기적인 시공간 정보를 효과적으로 추출할 수 있다. 특히 LCANet은 연속적(카스케이드) 구조의 어텐션-CTC 디코더를 도입하여 출력 텍스트를 생성한다. CTC와 어텐션을 연결함으로써, 은닉층 내부에서 CTC의 조건부 독립 가정의 한계를 부분적으로 보완할 수 있으며, 이는 성능 향상과 더 빠른 수렴 속도를 가져온다. 실험 결과, 제안된 시스템은 GRID 코퍼스 데이터베이스에서 CER(문자 오류율) 1.3%, WER(단어 오류율) 3.0%를 달성하여 기존 최고 수준의 방법 대비 12.3%의 성능 향상을 보였다.