9일 전

지속적 수어 인식을 위한 시각적 정렬 제약

Yuecong Min, Aiming Hao, Xiujuan Chai, Xilin Chen
지속적 수어 인식을 위한 시각적 정렬 제약
초록

시각 기반 지속적 수어 인식(Vision-based Continuous Sign Language Recognition, CSLR)은 영상 스트림으로부터 분할되지 않은 수어를 인식하는 것을 목표로 한다. CSLR 학습 과정에서 과적합(overfitting)은 가장 중요한 문제 중 하나이며, 기존 연구들은 반복적 학습 방식(iterative training scheme)이 이 문제를 부분적으로 해결할 수 있음을 보여주었지만, 그 대가로 더 많은 학습 시간이 소요된다는 점을 지적하고 있다. 본 연구에서는 최근 CSLR 연구에서 사용된 반복적 학습 방식을 재검토하여, 특징 추출기(feature extractor)의 충분한 학습이 과적합 문제 해결에 핵심적임을 인식하였다. 이를 바탕으로 특징 추출기를 정렬 보조(supervision)를 통해 강화하기 위한 시각적 정렬 제약(Visual Alignment Constraint, VAC)을 제안한다. 구체적으로, 제안하는 VAC는 두 가지 보조 손실(loss)로 구성된다. 하나는 시각적 특징에만 초점을 맞추고, 다른 하나는 특징 추출기와 정렬 모듈 간의 예측 정렬을 강제한다. 더불어, 특징 추출기와 정렬 모듈 간의 예측 불일치를 측정함으로써 과적합 정도를 반영하는 두 가지 새로운 지표를 제안한다. 두 개의 도전적인 CSLR 데이터셋에서 수행한 실험 결과, 제안하는 VAC는 CSLR 네트워크의 엔드투엔드(end-to-end) 학습을 가능하게 하며, 경쟁력 있는 성능을 달성함을 확인하였다.

지속적 수어 인식을 위한 시각적 정렬 제약 | 최신 연구 논문 | HyperAI초신경