9일 전

SignBERT: 수신 언어 인식을 위한 손 모델 인지 표현의 사전 학습

Hezhen Hu, Weichao Zhao, Wengang Zhou, Yuechen Wang, Houqiang Li
SignBERT: 수신 언어 인식을 위한 손 모델 인지 표현의 사전 학습
초록

손짓은 수어에서 핵심적인 역할을 한다. 현재의 딥러닝 기반 수어 인식(SLR) 방법은 제한된 수어 데이터 소스로 인해 해석 가능성 부족과 과적합 문제에 시달릴 수 있다. 본 논문에서는 수어 인식을 위한 첫 번째 자기지도 학습(pre-trainable) 가능한 SignBERT를 제안한다. 이 SignBERT는 기존의 포즈 추출기( pose extractor)를 활용해 손 자세를 시각적 토큰(visual token)으로 간주하며, 이 토큰들은 제스처 상태, 시계열 정보 및 손의 편향성(Hand chirality) 정보와 함께 임베딩된다. 사용 가능한 수어 데이터 소스를 최대한 활용하기 위해, SignBERT는 먼저 시각적 토큰을 마스킹하고 재구성하는 방식으로 자기지도 사전 학습을 수행한다. 여러 마스킹 모델링 전략과 결합하여, 모델 인지 기반의 방법으로 손 시퀀스에 대한 계층적 맥락을 더 잘 모델링할 수 있도록 손에 대한 사전 지식(hand prior)을 도입한다. 이후 예측 헤드를 추가하여 SignBERT를 최적화하여 하류의 수어 인식(SLR) 작업을 수행한다. 제안된 방법의 수어 인식 효과를 검증하기 위해, NMFs-CSL, SLR500, MSASL, WLASL 등 네 가지 공개 벤치마크 데이터셋에서 광범위한 실험을 수행하였다. 실험 결과는 자기지도 학습과 도입된 손 사전 지식 모두가 효과적임을 입증하였다. 더불어, 모든 벤치마크에서 최신 기술 수준(SOTA)의 성능을 달성하며 뚜렷한 성능 향상을 기록하였다.