9일 전

프레임 시퀀싱 제약 없이 수어 인식하기: 아르헨티나 수어에 대한 개념 증명

{Alejandro Rosete, Laura Lanzarini, César Estrebou, Facundo Quiroga, Franco Ronchetti}
초록

자동 수어 인식(SLR: Automatic Sign Language Recognition)은 인간-컴퓨터 상호작용 및 머신러닝 분야에서 중요한 주제이다. 한편으로는 영상 처리, 이미지 처리, 지능형 시스템, 언어학 등 다양한 지식 영역의 통합이 필요하며, 복잡한 과제를 제기한다. 다른 한편으로는 강건한 수어 인식 기술은 청각장애인의 통역 및 사회 통합을 지원할 뿐만 아니라 청각 장애가 없는 대중이 수어를 배우는 데에도 기여할 수 있다.기존의 SLR 시스템은 주로 은닉 마르코프 모델(Hidden Markov Models), 동적 시간 왜곡(Dynamic Time Warping) 또는 유사한 모델을 사용하여 신호를 인식한다. 이러한 기법들은 프레임의 순차적 배열을 활용하여 가설 수를 줄이는 데 초점을 맞춘다. 본 논문은 위치, 이동, 손 모양 등 다양한 유형의 특징 기반 하위 분류기를 통합하는 일반적인 확률 모델을 제안한다. 이 모델은 모든 분류 단계에서 단어의 집합(Bag-of-Words) 접근법을 사용하여, 인식 과정에서 순서가 필수적이지 않을 수 있다는 가설을 탐구한다. 제안된 모델은 아르헨티나 수어 데이터셋(64개의 수어 클래스, 총 3,200개 샘플)에서 97%의 정확도를 달성하였으며, 순서 없이도 수어 인식이 가능함을 어느 정도 증명하는 근거를 제공한다.