9일 전

BSL-1K: 입모양 정보를 활용한 공음성 수어 인식의 규모 확대

Samuel Albanie, Gül Varol, Liliane Momeni, Triantafyllos Afouras, Joon Son Chung, Neil Fox, Andrew Zisserman
BSL-1K: 입모양 정보를 활용한 공음성 수어 인식의 규모 확대
초록

최근의 미세한 제스처 및 동작 분류, 기계 번역 분야의 발전은 자동화된 수어 인식 기술이 현실이 될 가능성을 시사하고 있다. 이 목표 달성을 위한 진전을 방해하는 주요 장애물은, 수어 표기의 높은 복잡성과 자격을 갖춘 표기자 수의 제한으로 인해 적절한 학습 데이터 부족에 있다. 본 연구에서는 연속 영상에서 수어 인식을 위한 새로운 확장 가능한 데이터 수집 방식을 제안한다. 방송 영상에 포함된 약한 시간 정렬(subtitle) 정보와 키워드 탐지( keyword spotting) 기법을 활용하여, 1,000시간의 영상 내에서 1,000개의 수어 표현을 자동으로 지역화한다. 본 연구의 주요 기여는 다음과 같다: (1) 수어를 표기하는 자의 입모양(mouthing) 신호를 활용하여 영상 데이터로부터 고품질의 표기 정보를 획득하는 방법을 제시한다. 그 결과, 영국 수어(British Sign Language, BSL)의 1,000개 수어를 포함한 사전에 없던 규모의 BSL-1K 데이터셋을 구축하였다; (2) BSL-1K 데이터셋을 활용하여 BSL의 공진화된( co-articulated) 수어를 효과적으로 인식할 수 있는 강력한 모델을 학습할 수 있음을 보이며, 이러한 모델은 다른 수어 및 기준 벤치마크에 대한 우수한 사전 학습(pretraining) 자원으로 활용될 수 있음을 입증하였다. 특히, MSASL 및 WLASL 벤치마크에서 기존 최고 성능을 초과하였다. 마지막으로, (3) 수어 인식 및 수어 탐지(task of sign spotting)를 위한 새로운 대규모 평가 세트를 제안하고, 연구자들이 이 분야의 발전을 촉진할 수 있도록 기초 성능(baseline)을 제공한다.

BSL-1K: 입모양 정보를 활용한 공음성 수어 인식의 규모 확대 | 최신 연구 논문 | HyperAI초신경