2달 전

음성-시각적 음성 인식을 위한 하이브리드 CTC/어텐션 아키텍처

Stavros Petridis; Themos Stafylakis; Pingchuan Ma; Georgios Tzimiropoulos; Maja Pantic
음성-시각적 음성 인식을 위한 하이브리드 CTC/어텐션 아키텍처
초록

최근의 음성 인식 연구는 대부분 연결주의 시간 분류(CTC, Connectionist Temporal Classification) 또는 시퀀스-투-시퀀스(sequence-to-sequence) 모델을 사용하여 문자 단위 인식을 수행하고 있습니다. CTC는 개별 문자들의 조건부 독립성을 가정하는 반면, 주의 기반(attention-based) 모델은 비순차적인 정렬을 제공할 수 있습니다. 따라서, 주의 기반 모델과 함께 CTC 손실 함수를 사용하여 단조적인 정렬을 강제하면서 동시에 조건부 독립성 가정을 제거할 수 있습니다. 본 논문에서는 최근 제안된 하이브리드 CTC/주의 구조를 야외 환경에서의 오디오-비디오 음성 인식에 적용하였습니다. 최선의 지식으로는, 이와 같은 하이브리드 구조가 오디오-비디오 음성 인식에 처음으로 사용된 사례입니다. 우리는 LRS2 데이터베이스를 사용하여 제안된 오디오-비디오 모델이 오디오만을 사용한 모델보다 단어 오류율(word error rate)에서 1.3% 절대 감소를 보였으며, LRS2 데이터베이스에서 새로운 최고 성능(7% 단어 오류율)을 달성하였음을 확인하였습니다. 또한 신호 대 잡음 비율(signal-to-noise ratio)이 감소함에 따라 다양한 유형의 잡음에 대해 오디오-비디오 모델이 오디오 기반 모델보다 크게 우수한 성능(단어 오류율에서 최대 32.9% 절대 향상)을 보임을 관찰하였습니다.

음성-시각적 음성 인식을 위한 하이브리드 CTC/어텐션 아키텍처 | 최신 연구 논문 | HyperAI초신경