시퀀스-투-시퀀스 입술 읽기 위한 의사 컨볼루셔널 정책 그래디언트

입술 읽기(Lip-reading)는 입술 움직임 시퀀스로부터 발화 내용을 추론하는 것을 목표로 하며, 입력된 입술 움직임 이미지 시퀀스를 발화 내용의 텍스트 시퀀스로 변환하는 전형적인 시퀀스 대 시퀀스(sequence-to-sequence, seq2seq) 문제로 간주할 수 있다. 그러나 기존 seq2seq 모델의 학습 과정은 두 가지 주요 문제에 직면해 있다. 첫째, '선생님 강요(teacher-forcing)' 전략에 기인한 노출 편향(exposure bias)이며, 둘째, 분류적 최적화 목표(일반적으로 교차 엔트로피 손실)와 최종 평가 지표(일반적으로 문자/단어 오류율) 사이의 일관성 부족이다. 본 논문에서는 이러한 두 가지 문제를 해결하기 위해 새로운 의사-결합형 정책 그래디언트(Pseudo-Convolutional Policy Gradient, PCPG) 기반의 방법을 제안한다. 한편으로는 본 논문에서 문자 오류율(Character Error Rate, CER)로 정의되는 평가 지표를 보상(reward) 형태로 도입하여 원래의 분류적 최적화 목표와 함께 모델을 최적화한다. 다른 한편으로는 컨볼루션 연산의 국소적 인지 특성에 착안하여, 보상과 손실 차원에서 의사-결합형 연산을 수행함으로써 각 시간 단계 주변의 더 많은 맥락 정보를 고려하여 전체 최적화를 위한 강건한 보상과 손실을 생성한다. 마지막으로, 단어 수준과 문장 수준의 다양한 벤치마크에서 철저한 비교 및 평가를 수행하였다. 실험 결과, 기존의 관련 방법들에 비해 뚜렷한 성능 향상을 보였으며, 모든 도전적인 벤치마크에서 새로운 최고 성능(SOTA) 또는 경쟁력 있는 정확도를 기록함으로써 제안된 방법의 우수성을 명확히 입증하였다.