9일 전

비디오 및 텍스트 임베딩의 교차 모달 정렬을 통한 연속 수어 인식: 공동 잠재 공간 내에서의 접근

{Petros Daras, DIMITRIOS KONSTANTINIDIS, Kosmas Dimitropoulos, Ilias Papastratis}
초록

지속적 수어 인식(Continuous Sign Language Recognition, CSLR)은 약한 레이블링이 된 영상 시퀀스로부터 수어 글로스(gloss)와 그 시간적 경계를 인식하는 도전적인 문제를 의미한다. 기존의 방법들은 주로 시각적 특징 추출에 초점을 맞추며 텍스트 정보를 간과하고, 글로스 내부의 종속 관계를 효과적으로 모델링하지 못하는 한계를 지닌다. 본 연구에서는 텍스트 정보를 활용하여 시각 기반 CSLR 성능을 향상시키는 다모달 학습 접근법을 제안한다. 이를 위해 먼저 영상과 텍스트 각각에 대해 강력한 인코딩 네트워크를 사용하여 영상 및 텍스트 임베딩을 생성한 후, 이를 공통의 잠재 표현 공간으로 매핑하고 정렬한다. 제안하는 다모달 정렬의 목적은 글로스 내부의 종속 관계를 모델링하고, CSLR에 더 풍부한 설명력을 갖춘 시각 기반 잠재 표현을 생성하는 것이다. 제안된 방법은 영상 및 텍스트의 잠재 표현을 함께 학습하여 최적화되며, 정렬된 영상 잠재 표현은 공동으로 학습된 디코더를 통해 분류된다. 세 가지 유명한 수어 인식 데이터셋에서 실시한 광범위한 실험과 최신 기술 대비 비교를 통해 제안된 접근법의 높은 잠재력이 입증되었다.