
초록
최근 연구들은 음성-시각 음성 인식(AVSR)에서 대표적인 시각적 특징을 추출하고, 음성 및 시각 모달 간에 효율적으로 융합하는 것이 매우 중요하다는 점을 보여주었으나, 여전히 도전 과제로 남아 있다. 이를 해결하기 위해 우리는 양방향 동기화 융합을 지원하는 입술 그래프를 활용한 AVSR 방법을 제안한다. 먼저, 이미지 브랜치와 그래프 브랜치를 결합한 하이브리드 시각 스트림을 통해 구분 가능한 시각적 특징을 추출한다. 특히, 입술 그래프는 입술 키포인트 간의 자연스럽고 동적인 연결성을 활용하여 입술의 형태를 모델링하며, 그래프 합성곱 네트워크(GCN)와 양방향 게이트형 순환 단위(Bi-GRU)를 통해 입술 그래프의 시간적 진화를 포착한다. 두 번째로, 주목력 기반의 양방향 동기화 융합 방식을 통해 하이브리드 시각 스트림과 음성 스트림을 융합함으로써, 두 모달 간의 비동기성을 해결하고 양방향 정보 상호작용을 가능하게 한다. LRW-BBC 데이터셋에서의 실험 결과, 본 연구에서 제안하는 방법은 깨끗한 환경과 노이즈 환경 모두에서 종단간 AVSR 기준 모델보다 뛰어난 성능을 보였다.