9일 전

단어 수준의 수어 인식을 위한 시그니처 포즈 기반 트랜스포머

{Marek Hrúz, Matyáš Boháček}
단어 수준의 수어 인식을 위한 시그니처 포즈 기반 트랜스포머
초록

본 논문에서는 Transformer 모델 기반의 단어 수준의 수어 인식 시스템을 제안한다. 우리는 휴대용 장치에서 이러한 인식 시스템의 활용 가능성을 높게 평가하며, 낮은 계산 비용을 갖춘 솔루션을 목표로 한다. 인식은 2차원 랜드마크 위치 형태로 인간 신체의 자세를 추정하는 데 기반한다. 본 연구에서는 서명 공간을 고려한 강건한 자세 정규화 방식을 도입하며, 신체 자세와 독립적인 국소 좌표계에서 손 자세를 별도로 처리한다. 실험을 통해 이러한 정규화가 제안된 시스템의 정확도에 미치는 상당한 영향을 입증한다. 또한 신체 자세에 대한 여러 가지 증강 기법을 제안하여 정확도를 추가로 향상시키며, 특히 새로운 순차적 관절 회전 증강 기법을 도입한다. 모든 구성 요소를 완성한 결과, WLASL 및 LSA64 데이터셋에서 최신 기술 수준의 top-1 성능을 달성하였다. WLASL 데이터셋의 100-글로스 하위 집합에서 63.18%의 서명 기록을 성공적으로 인식하였으며, 기존 최고 성능 대비 5%의 상대적 개선을 기록하였다. 300-글로스 하위 집합에서는 43.78%의 인식률을 달성하여, 기존 최고 성능 대비 3.8%의 상대적 개선을 보였다. LSA64 데이터셋에서는 테스트 인식 정확도 100%를 보고하였다.