
초록
입술 읽기는 화자의 입 움직임에서 텍스트를 해독하는 것을 목표로 합니다. 최근 몇 년 동안 영어의 단어 수준과 문장 수준에서 입술 읽기 방법이 큰 발전을 이룩하였습니다. 그러나 중국어 표준어는 음성 언어로, 어휘적 또는 문법적 의미를 구분하기 위해 피치(pitch)에 의존하므로 입술 읽기 작업의 모호성이 크게 증가합니다. 본 논문에서는 문장 예측 시 음조(tone)를 명시적으로 모델링하는 중국어 표준어(CSSMCM: Cascade Sequence-to-Sequence Model for Chinese Mandarin) 입술 읽기 모델을 제안합니다. 음조는 시각 정보와 문법 구조를 기반으로 모델링되며, 이 정보들과 함께 문장을 예측하는 데 사용됩니다. CSSMCM의 평가를 위해 CMLR(Chinese Mandarin Lip Reading) 데이터셋이 수집되어 공개되었습니다. 이 데이터셋은 중국 네트워크 텔레비전 웹사이트에서 100,000여 개의 자연스러운 문장으로 구성되어 있습니다. CMLR 데이터셋을 이용하여 학습한 결과 제안된 CSSMCM은 최신 입술 읽기 프레임워크들의 성능을 능가하였으며, 이는 중국어 표준어 입술 읽기에 있어서 음조의 명시적 모델링이 효과적임을 확인해주었습니다.