End-to-end Audiovisual Speech Recognition :end-to-end 오디오비주얼 음성 인식

최근에 여러 가지 엔드투엔드 딥 러닝 접근법이 제시되어, 입력 이미지나 오디오 신호에서 음성 또는 시각적 특성을 추출하고 음성 인식을 수행합니다. 그러나, 엔드투엔드 오디오-시각 모델에 대한 연구는 매우 제한적입니다. 본 연구에서는 잔차 네트워크와 양방향 게이트 순환 유닛(BGRU)을 기반으로 하는 엔드투엔드 오디오-시각 모델을 제시합니다. 우리所知에 따르면, 이는 대규모 공개 데이터셋(LRW)에서 이미지 픽셀과 오디오 웨이브폼을 직접 학습하여 특성을 추출하고 문맥 내 단어 인식을 수행하는 첫 번째 오디오-시覺 융합 모델입니다. 이 모델은 각 모달리티를 위한 두 개의 스트림으로 구성되며, 입 부분과 원시 웨이브폼에서 특성을 직접 추출합니다. 각 스트림/모달리티의 시간적 동역학은 2층 BGRU로 모델링되며, 여러 스트림/모달리티의 융합은 다른 2층 BGRU를 통해 이루어집니다. 깨끗한 오디오 조건과 낮은 수준의 노이즈에서는 오디오만 사용하는 엔드투엔드 및 MFCC 기반 모델보다 약간 더 높은 분류율을 보고하였습니다. 고수준의 노이즈가 있는 경우에는 엔드투엔드 오디오-시각 모델이 모든 오디오만 사용하는 모델보다 현저히 우수한 성능을 보였습니다.注:在翻译中,“所知”一词并非韩语常用表达,因此建议将其删除以提高流畅度。以下是修改后的版本:최근에 여러 가지 엔드투엔드 딥 러닝 접근법이 제시되어, 입력 이미지나 오디오 신호에서 음성 또는 시각적 특성을 추출하고 음성 인식을 수행합니다. 그러나, 엔드투엔드 오디오-시각 모델에 대한 연구는 매우 제한적입니다. 본 연구에서는 잔차 네트워크와 양방향 게이트 순환 유닛(BGRU)을 기반으로 하는 엔드투엔드 오디오-시각 모델을 제시합니다. 최선의 지식으로 판단할 때, 이는 대규모 공개 데이터셋(LRW)에서 이미지 픽셀과 오디오 웨이브폼을 직접 학습하여 특성을 추출하고 문맥 내 단어 인식을 수행하는 첫 번째 오디오-시각 융합 모델입니다. 이 모델은 각 모달리티를 위한 두 개의 스트림으로 구성되며, 입 부분과 원시 웨이브폼에서 특성을 직접 추출합니다. 각 스트림/모달리티의 시간적 동역학은 2층 BGRU로 모델링되며, 여러 스트림/모달리티의 융합은 다른 2층 BGRU를 통해 이루어집니다. 깨끗한 오디오 조건과 낮은 수준의 노이즈에서는 오디오만 사용하는 엔드투엔드 및 MFCC 기반 모델보다 약간 더 높은 분류율을 보고하였습니다. 고수준의 노이즈가 있는 경우에는 엔드투엔드 오디오-시각 모델이 모든 오디오만 사용하는 모델보다 현저히 우수한 성능을 보였습니다.