10일 전
LRS2 데이터셋을 위한 오디오-시각적 겹침 음성 인식
Jianwei Yu, Shi-Xiong Zhang, Jian Wu, Shahram Ghorbani, Bo Wu, Shiyin Kang, Shansong Liu, Xunying Liu, Helen Meng, Dong Yu

초록
중첩된 음성의 자동 인식은 오늘날까지도 매우 도전적인 과제로 남아 있다. 인간의 음성 인식이 이모달적 특성을 지닌다는 점에 착안하여, 본 논문은 중첩된 음성 인식을 위한 오디오-비주얼 기술의 활용을 탐구한다. 오디오-비주얼 음성 인식(AVSR) 시스템 구축과 관련된 세 가지 문제를 다룬다. 첫째, AVSR 시스템의 기본 아키텍처 설계—즉, 엔드투엔드(end-to-end) 및 하이브리드(hybrid) 방식—에 대한 탐색이 이루어진다. 둘째, 오디오 및 비주얼 특징을 견고하게 통합하기 위해 특별히 설계된 모달리티 융합 게이트(modality fusion gates)가 사용된다. 셋째, 기존의 명시적인 음성 분리 및 인식 단계를 포함하는 전통적인 파이프라인 아키텍처와 달리, 라티스-프리 MMI(LF-MMI) 판별 기준을 사용하여 일관되게 최적화된 간결하고 통합된 AVSR 시스템도 제안된다. 제안된 LF-MMI 시계열 신경망(TDNN) 시스템은 LRS2 데이터셋에서 최고 성능을 달성하였다. LRS2 데이터셋에서 시뮬레이션된 중첩 음성에 대한 실험 결과, 제안된 AVSR 시스템은 오직 오디오만을 사용하는 기준 LF-MMI DNN 시스템보다 단어 오류율(WER) 감소 측면에서 최대 29.98%의 절대적 개선을 보였으며, 더 복잡한 파이프라인 시스템과 비슷한 인식 성능을 나타냈다. 또한, 특징 융합을 사용한 기존 AVSR 시스템 대비 WER 감소에서 일관된 4.89%의 절대적 성능 향상도 달성하였다.