2달 전

통증 없이 효과적인 입술 읽기 모델 학습하기

Feng, Dalu ; Yang, Shuang ; Shan, Shiguang ; Chen, Xilin
통증 없이 효과적인 입술 읽기 모델 학습하기
초록

입술 읽기, 또는 시각적 음성 인식은 비디오에서 입술의 움직임을 분석하여 말 내용을 인식하는 기술입니다. 최근 몇 년 동안 빠르게 발전한 딥러닝 기법과 대규모 입술 읽기 데이터셋 덕분에 이 분야에서 많은 진전이 이루어졌습니다. 대부분의 기존 방법들은 복잡한 신경망 구조와 함께 여러 가지 맞춤형 학습 전략을 사용하여 높은 성능을 달성하였습니다. 이러한 전략들은 종종 매우 간략한 설명으로 제시되거나, 심지어 소스 코드에만 나타나는 경우가 많습니다. 우리는 이러한 전략들을 적절히 활용하면 모델을 크게 변경하지 않으면서도 흥미로운 개선 효과를 얻을 수 있다는 것을 발견하였습니다. 이러한 전략들의 무시할 수 없는 영향과 효과적인 입술 읽기 모델을 학습시키는 데 있어 현재의 어려움을 고려하여, 우리는 처음으로 다양한 선택사항들의 영향력을 보여주기 위해 포괄적인 정량적 연구와 비교 분석을 수행하였습니다. 베이스라인 파이프라인에 일부 쉽게 적용 가능한 개선 사항만 추가함으로써, 가장 큰 두 공개 입술 읽기 데이터셋인 LRW와 LRW-1000에서 각각 83.7%에서 88.4%, 38.2%에서 55.7%로 성능이 명확히 향상되었습니다. 이러한 결과들은 기존의 최신 연구 결과들과 비교할 수 있으며, 심지어 그들을 능가하기도 합니다.