2달 전
Auto-AVSR: 자동 라벨을 사용한 오디오-비주얼 음성 인식
Ma, Pingchuan ; Haliassos, Alexandros ; Fernandez-Lopez, Adriana ; Chen, Honglie ; Petridis, Stavros ; Pantic, Maja

초록
음성-시각적 음성 인식은 음향 노이즈에 대한 강건성 때문에 많은 주목을 받고 있습니다. 최근에는 자동, 시각적, 그리고 음성-시각적 음성 인식(ASR, VSR, AV-ASR)의 성능이 크게 향상되었는데, 이는 주로 더 큰 모델과 학습 데이터셋의 사용 덕분입니다. 그러나 데이터셋의 정확한 라벨링은 시간이 많이 소요되고 비용이 많이 듭니다. 따라서 본 연구에서는 비라벨된 데이터셋의 자동으로 생성된 전사본을 활용하여 학습 데이터셋의 크기를 증가시키는 방법을 조사합니다. 이를 위해 공개된 사전 학습 ASR 모델을 사용하여 AVSpeech와 VoxCeleb2와 같은 비라벨된 데이터셋을 자동으로 전사합니다. 그런 다음, LRS2와 LRS3 데이터셋 및 추가적으로 자동으로 전사된 데이터를 포함하는 확장된 학습 데이터셋에서 ASR, VSR 및 AV-ASR 모델을 학습시킵니다. 우리는 문헌에서 최근 나타난 추세인 학습 데이터셋의 크기 증가가 노이지한 전사본을 사용하더라도 WER(단어 오류율) 감소로 이어짐을 보여줍니다. 제안된 모델은 LRS2와 LRS3에서 새로운 최고 수준의 AV-ASR 성능을 달성하였습니다. 특히, LRS3에서 0.9%의 WER를 기록하였으며, 현재 최고 수준의 접근 방식보다 상대적으로 30% 개선되었습니다. 또한 26배 더 많은 학습 데이터를 사용한 비공개 데이터셋으로 학습된 방법들을 능가하였습니다.