9일 전
시그널 언어 인식 모델의 피니 튜닝: 기술 보고서
Maxim Novopoltsev, Leonid Verkhovtsev, Ruslan Murtazin, Dmitriy Milevich, Iuliia Zemtsova

초록
수신 언어 인식(Sign Language Recognition, SLR)은 손짓, 몸짓 자세, 심지어 표정까지 빠르고 복잡한 움직임을 포함하기 때문에 핵심적이지만 도전적인 과제이다. 본 연구에서는 두 가지 질문에 초점을 맞추어 탐구하였다. 첫째, 다른 수신 언어 데이터셋에서의 미세조정(fine-tuning)이 수신 언어 인식 품질 향상에 어떻게 기여하는가? 둘째, GPU를 사용하지 않고도 실시간으로 수신 언어 인식이 가능한가? 이를 검증하기 위해 미국 수신 언어(WLASL), 터키어 수신 언어(AUTSL), 러시아 수신 언어(RSL) 등 세 가지 다른 언어의 데이터셋을 활용하였다. 본 시스템의 평균 처리 속도는 초당 3회의 예측에 달하며, 이는 실시간 환경의 요구사항을 충족하는 수준이다. 본 모델(프로토타입)은 언어 또는 청각 장애를 가진 사람들이 인터넷을 통해 다른 사람들과 대화하는 데 유용할 것으로 기대된다. 또한, 모델을 다른 수신 언어 데이터로 추가 학습할 경우 인식 품질에 어떤 영향을 미치는지 조사하였다. 그 결과, 다른 수신 언어 데이터를 기반으로 한 모델의 추가 학습은 거의 항상 손짓 인식 품질의 향상으로 이어지는 것으로 나타났다. 또한, 모델 학습 실험 재현을 위한 코드, 모델을 ONNX 형식으로 변환하는 방법, 그리고 실시간 손짓 인식을 위한 추론 기능까지 제공한다.