9일 전

AUTSL: 대규모 다중모달 터키 수어 데이터셋 및 베이스라인 방법

Ozge Mercanoglu Sincan, Hacer Yalim Keles
AUTSL: 대규모 다중모달 터키 수어 데이터셋 및 베이스라인 방법
초록

수신어 인식은 손 모양과 방향, 손 움직임, 신체 자세, 얼굴 표정 등 여러 출처의 동시적인 국소적 및 전반적 운동을 통해 수신어를 식별하는 복잡한 문제이다. 실생활 환경에서 대규모 수신어 사전을 컴퓨터적으로 해결하는 것은 여전히 도전 과제이며, 최첨단 모델을 사용하더라도 여전히 해결되지 않은 과제이다. 본 연구에서는 새로운 대규모 다모달 터키 수신어 데이터셋(AUTSL)과 기준 성능 평가를 위한 벤치마크를 제안하고, 성능 평가를 위한 기초 모델을 제공한다. 본 데이터셋은 43명의 다른 수신어 사용자가 수행한 총 226개의 수신어를 포함하며, 총 38,336개의 고립된 수신어 영상 샘플로 구성되어 있다. 샘플은 실내 및 실외 환경에서 다양한 배경을 포함하고 있으며, 수신어 수행자의 공간적 위치와 자세도 다양하게 기록되어 있다. 각 샘플은 Microsoft Kinect v2를 통해 기록되었으며, RGB, 깊이, 스켈레톤 모달리티를 포함한다. 사용자 독립적 평가를 위한 벤치마크 학습 및 테스트 세트를 준비하였다. 다양한 딥러닝 기반 모델을 학습하고, 벤치마크를 활용하여 실증적 평가를 수행하였다. 여기서는 CNN을 사용하여 특징을 추출하고, 단방향 및 양방향 LSTM 모델을 활용하여 시간 정보를 특성화하였다. 또한 모델에 특징 풀링 모듈과 시간 주의 메커니즘(Temporal Attention)을 도입하여 성능을 향상시켰다. 제안된 모델은 AUTSL 및 Montalbano 데이터셋에서 성능을 평가하였다. Montalbano 데이터셋에서는 최첨단 방법과 경쟁 가능한 성능을 기록하였으며, 정확도 96.11%를 달성하였다. AUTSL의 무작위 훈련-테스트 분할에서 모델은 최대 95.95%의 정확도를 보였다. 제안된 사용자 독립 벤치마크 데이터셋에서는 최고의 기초 모델이 62.02%의 정확도를 기록하였다. 동일한 기초 모델의 성능 차이는 본 벤치마크 데이터셋 내재적 도전 과제를 보여준다. AUTSL 벤치마크 데이터셋은 https://cvml.ankara.edu.tr에서 공개되어 있다.

AUTSL: 대규모 다중모달 터키 수어 데이터셋 및 베이스라인 방법 | 최신 연구 논문 | HyperAI초신경