귀로 입을 듣다: 음성 인식기의 정제를 통한 입술 읽기 개선

최근 몇 년간 딥러닝 기술의 발전과 대규모 데이터셋의 공개로 입술 읽기(lip reading) 기술은 예전에 없던 급속한 발전을 이뤘다. 비록 기대에 부응하는 성과가 도출되었지만, 입술의 움직임을 통해 추출할 수 있는 특징이 모호한 성격을 지니고 있어 구분 가능한 특징을 효과적으로 추출하기 어렵다는 점에서, 입술 읽기의 성능은 여전히 음성 인식 기술에 비해 뒤처져 있다. 본 논문에서는 음성 인식 모델로부터 학습함으로써 입술 읽기의 성능을 강화하는 새로운 방법, 즉 '음성으로부터 입술 읽기(Lip by Speech, LIBS)'를 제안한다. 본 방법의 핵심 논리는 음성 인식 모델이 추출하는 특징이 입술의 미세한 움직임에서 얻기 어려운 보완적이고 구분 가능한 정보를 제공할 수 있으며, 이는 입술 읽기 모델의 학습을 촉진할 수 있다는 점에 있다. 이를 실현하기 위해 음성 인식 모델로부터 다중 해상도(multi-granularity) 지식을 입술 읽기 모델로 전달하는 지식 증류(knowledge distillation) 기법을 활용한다. 이 다모달 지식 증류를 수행하기 위해, 음성과 영상의 길이가 일치하지 않는 문제를 효과적으로 해결하기 위한 정렬 전략을 도입하였으며, 음성 인식 모델의 예측 결과를 보다 정교하게 개선하기 위한 혁신적인 필터링 전략을 제안한다. 제안된 방법은 CMLR 및 LRS2 데이터셋에서 새로운 최고 성능을 달성하였으며, 문자 오류율(Character Error Rate) 기준으로 기존 기준 모델 대비 각각 7.66%, 2.75% 향상된 성과를 보였다.