10일 전

LRS2 데이터셋을 위한 오디오-시각적 겹침 음성 인식

Jianwei Yu, Shi-Xiong Zhang, Jian Wu, Shahram Ghorbani, Bo Wu, Shiyin Kang, Shansong Liu, Xunying Liu, Helen Meng, Dong Yu
LRS2 데이터셋을 위한 오디오-시각적 겹침 음성 인식
초록

중첩된 음성의 자동 인식은 오늘날까지도 매우 도전적인 과제로 남아 있다. 인간의 음성 인식이 이모달적 특성을 지닌다는 점에 착안하여, 본 논문은 중첩된 음성 인식을 위한 오디오-비주얼 기술의 활용을 탐구한다. 오디오-비주얼 음성 인식(AVSR) 시스템 구축과 관련된 세 가지 문제를 다룬다. 첫째, AVSR 시스템의 기본 아키텍처 설계—즉, 엔드투엔드(end-to-end) 및 하이브리드(hybrid) 방식—에 대한 탐색이 이루어진다. 둘째, 오디오 및 비주얼 특징을 견고하게 통합하기 위해 특별히 설계된 모달리티 융합 게이트(modality fusion gates)가 사용된다. 셋째, 기존의 명시적인 음성 분리 및 인식 단계를 포함하는 전통적인 파이프라인 아키텍처와 달리, 라티스-프리 MMI(LF-MMI) 판별 기준을 사용하여 일관되게 최적화된 간결하고 통합된 AVSR 시스템도 제안된다. 제안된 LF-MMI 시계열 신경망(TDNN) 시스템은 LRS2 데이터셋에서 최고 성능을 달성하였다. LRS2 데이터셋에서 시뮬레이션된 중첩 음성에 대한 실험 결과, 제안된 AVSR 시스템은 오직 오디오만을 사용하는 기준 LF-MMI DNN 시스템보다 단어 오류율(WER) 감소 측면에서 최대 29.98%의 절대적 개선을 보였으며, 더 복잡한 파이프라인 시스템과 비슷한 인식 성능을 나타냈다. 또한, 특징 융합을 사용한 기존 AVSR 시스템 대비 WER 감소에서 일관된 4.89%의 절대적 성능 향상도 달성하였다.