신경망 기반 수어 번역

수신 언어 인식(Sign Language Recognition, SLR)은 지난 20년간 활발한 연구 분야로 여겨져 왔다. 그러나 지금까지의 대부분의 연구는 SLR를 단순한 제스처 인식 문제로 간주해 왔다. SLR는 연속적인 서사 표지의 시퀀스를 인식하는 것을 목표로 하지만, 말하는 언어와는 달리 풍부한 문법적·언어학적 구조를 지닌 수신 언어의 본질적인 특성을 간과하고 있다. 반면, 본 연구에서는 수신 언어 번역(Sign Language Translation, SLT) 문제를 제안한다. 여기서의 목적은 말하는 언어의 어순과 문법 구조와 같은 차이를 고려하여 수신 언어 영상에서 말하는 언어로의 번역을 생성하는 것이다. 우리는 신경 기계 번역(Neural Machine Translation, NMT) 프레임워크 내에서 엔드투엔드(end-to-end) 및 사전 훈련(pretrained) 설정 모두에서 SLT 문제를 체계화하였다(전문가 지식을 활용). 이를 통해 공간적 표현, 기반 언어 모델, 그리고 수신 언어와 말하는 언어 간의 매핑을 동시에 학습할 수 있다. Neural SLT의 성능을 평가하기 위해, 우리는 세계 최초로 공개 가능한 연속적 SLT 데이터셋인 RWTH-PHOENIX-Weather 2014T를 수집하였다. 이 데이터셋은 독일 수신 언어(DSL)로 제작된 날씨 방송 영상에 대해 말하는 언어 번역과 글로스(gloss) 수준의 주석을 제공한다. 본 데이터셋은 95만 개 이상의 프레임, >1,000개의 수신 언어 어휘에서 나온 >67,000개의 표지, 그리고 >2,800개의 독일어 어휘에서 나온 >99,000개의 단어를 포함하고 있다. 본 연구에서는 새로운 분야로서의 향후 연구를 뒷받침하기 위해 다양한 SLT 설정에 대해 정량적 및 정성적 결과를 보고한다. 번역 성능의 상한선(upper bound)은 BLEU-4 기준으로 19.26으로 계산되었으며, 엔드투엔드 프레임 수준 및 글로스 수준의 토큰화 네트워크는 각각 9.58과 18.13의 성능을 달성하였다.