입술을 넘어서 음성을 읽을 수 있을까? 심층 시각 음성 인식을 위한 RoI 선택 재고

최근 딥러닝 기술의 급속한 발전은 시각적 음성 인식(VSR, Visual Speech Recognition) 분야에 연구자들의 관심을 높이고 있다. 현재까지 대부분의 기존 방법들은 VSR을 자동 입모양 인식(Automatic Lip Reading)과 동일시하며, 입술의 움직임을 분석함으로써 음성을 인식하려는 접근을 취하고 있다. 그러나 인간의 경험과 심리학적 연구 결과에 따르면, 대면 대화 중에 우리는 항상 상대방의 입술에만 시선을 고정하는 것은 아니다. 오히려 얼굴 전체를 반복적으로 스캔하며 소통한다. 이러한 사실은 우리가 간과하기 쉬운 근본적인 문제를 다시 고민하게 만든다. 즉, VSR 모델은 입술 외부의 얼굴 부위, 즉 ‘입술 외부 얼굴 영역(Extraoral Facial Regions)’의 정보를 활용함으로써 성능 향상을 얻을 수 있을까? 본 논문에서는 최신 VSR 모델을 기반으로 입술, 전체 얼굴, 상부 얼굴, 심지어 볼 부위까지 다양한 얼굴 영역이 VSR 성능에 미치는 영향을 포괄적으로 평가한다. 다양한 특성을 지닌 단어 수준과 문장 수준의 벤치마크에서 실험을 수행한 결과, 데이터의 복잡한 변동성에도 불구하고, 입술 외부의 얼굴 영역, 심지어 상부 얼굴 영역의 정보를 포함시키는 것이 VSR 성능에 일관되게 긍정적인 영향을 미친다는 것을 발견했다. 더불어, 다양한 얼굴 영역에 포함된 정보를 최대한 활용하기 위해, Cutout 기반의 간단하면서도 효과적인 새로운 방법을 제안한다. 이는 얼굴 기반 VSR을 위한 더 구분력 있는 특징을 학습하도록 유도한다. 실험 결과, 기존의 입술 영역만을 입력으로 사용하는 최신 기술들보다 뚜렷한 성능 향상이 나타났으며, 이는 VSR 연구 공동체에게 새로운 시각과 흥미로운 통찰을 제공할 것으로 기대된다.