9일 전

Siformer: 효율적인 뼈대 기반 수어 인식을 위한 특징 고립형 트랜스포머

{Chun Yang Chong, Mei Kuan Lim, Muxin Pu}
초록

수신 언어 인식(Sign Language Recognition, SLR)은 주어진 영상에서 수신 언어의 글로스(gloss)를 자동으로 해석하는 것을 의미한다. 이 연구 분야는 수신 언어에 내재된 빠르고 복잡한 움직임—손 동작, 신체 자세, 심지어 얼굴 표정까지 포함—으로 인해 컴퓨터 비전 분야에서 복잡한 도전 과제를 제기한다. 최근, 주체와 배경의 변동을 독립적으로 처리할 수 있는 능력을 지닌 스켈레톤 기반 동작 인식 기법이 점차 주목받고 있다. 그러나 현재의 스켈레톤 기반 SLR 기법은 세 가지 주요한 한계를 지니고 있다. 첫째, 대부분의 연구들이 비현실적인 스켈레톤 표현을 기반으로 SLR 모델을 학습하기 때문에 실제적인 손 자세의 중요성을 간과하는 경향이 있다. 둘째, 학습 및 추론 단계 모두에서 데이터의 완전성(완전한 입력)을 전제로 하며, 다양한 신체 부위 간의 복잡한 관계를 종합적으로 모델링하려는 경향이 있다. 셋째, 이러한 방법들은 모든 수신 글로스를 동일하게 취급하여 스켈레톤 표현의 복잡성 수준에 따른 차이를 고려하지 못한다.본 연구에서는 손 스켈레톤 표현의 현실성 향상을 위해 운동학적 손 자세 보정 기법을 제안한다. 또한, 누락된 데이터의 영향을 완화하기 위해 특징 격리(feature-isolated) 메커니즘을 도입하여 국소적인 공간-시간적 맥락을 효과적으로 포착할 수 있도록 한다. 이 방법은 개별 특징과 별도로 맥락을 동시에 독립적으로 추출함으로써 SLR 모델의 강건성(로버스트성)을 향상시킨다. 더불어, 수신 글로스의 복잡성 수준이 다양함을 고려하여 입력에 따라 적응하는 추론 방식을 개발하여 계산 효율성과 정확도를 최적화한다.실험 결과를 통해 본 연구의 효과성을 입증하였으며, WLASL100 및 LSA64 데이터셋에서 새로운 최고 성능(SOTA, State-of-the-Art)을 달성하였다. WLASL100에서는 1위 정확도(top-1 accuracy) 86.50%를 기록하여 기존 SOTA 대비 상대적 개선률 2.39%를 달성하였고, LSA64에서는 99.84%의 top-1 정확도를 달성하였다. 본 연구와 관련된 코드 및 아티팩트는 공개적으로 제공되며, GitHub 페이지(https://github.com/mpuu00001/Siformer.git)를 통해 접근할 수 있다.