10일 전
운전자 보조 시스템에서의 시각적 음성 인식
{Alexey Karpov, Alexandr Axyonov, Alexey Kashevnik, Dmitry Ryumin, Denis Ivanko}

초록
시각적 말하기 인식, 즉 자동 입술 읽기(자동 립리딩)는 최근 주목받는 분야이다. 음성 데이터가 심하게 노이즈에 영향을 받거나 완전히 접근 불가능한 상황에서도 비디오 데이터가 다모달 음성 인식에서 유용함이 입증되었다. 본 논문에서는 시각적 말하기 인식을 위한 새로운 방법을 제안한다. 기존의 접근 방식들을 초월하는 성능을 보이기 위해 유명한 LRW 립리딩 데이터셋에서 이를 평가하였다. 포괄적인 평가를 거친 후, 개발된 방법을 실외에서 수집한 차량 운전자의 음성 데이터를 포함하는 RUSAVIC 코퍼스에 적용하여 테스트하였다. 그 결과는 제안한 방법이 높은 성능을 보임은 물론, 운전과 같은 매우 어려운 자연 환경에서도 비디오 모달리티만을 사용하여 말하기를 인식하는 것이 본질적으로 가능함을 입증한다.