통합된 음성 인식: 청각, 시각 및 청시각 입력을 위한 단일 모델

청각, 시각, 그리고 청시각 음성 인식(Auditory Speech Recognition, Visual Speech Recognition, 그리고 Audio-Visual Speech Recognition, 각각 ASR, VSR, AVSR로 표기)에 대한 연구는 전통적으로 독립적으로 수행되어 왔습니다. 최근에는 두 가지 또는 세 가지 작업을 동시에 다루는 자기 감독 학습 연구가 이루어지고 있지만, 이러한 연구들 역시 개별 모델을 생성하여 메모리 요구량의 증가와 중복성을 초래하는 분리된 추론 파이프라인을 사용하는 경향이 있습니다. 본 논문에서는 이러한 시스템들을 위한 통합된 훈련 전략을 제안합니다. 단일 모델로 모든 세 가지 작업을 훈련시키면 VSR과 AVSR 성능이 향상되며, 처음부터 훈련할 때 일반적으로 발생하는 최적화 문제를 해결할 수 있음을 보여줍니다. 또한, 라벨이 부착되지 않은 샘플을 더 효과적으로 활용하기 위한 탐욕적인 가짜 라벨링 방법을 소개하며, 관련 자기 감독 방법들의 단점을 보완합니다. 마지막으로, 우리의 프레임워크 내에서 자기 감독 사전 학습 방법을 개발하였으며, 이 방법이 반감독 접근법과 함께 그 효과성을 입증하였습니다. 모든 작업에 단일 모델을 사용함에도 불구하고, 우리의 통합 접근법은 LRS3와 LRS2 데이터셋에서 ASR, VSR, AVSR를 비롯하여 새로 출시된 WildVSR 데이터셋에서도 최근의 방법들과 비교해 최고 수준의 성능을 달성하였습니다. 코드와 모델은 https://github.com/ahaliassos/usr에서 제공됩니다.