9일 전
한 모델로는 충분하지 않다: 고립된 수어 인식을 위한 앙상블
{Zdeněk Krňoul, Miroslav Hlaváč, Matyáš Boháček, Jakub Kanis, Ivan Gruber, Marek Hrúz}
초록
본 논문에서는 고립된 수어 표시(즉, 고립된 수어 단어)를 인식하는 문제에 초점을 맞추어 수어 인식을 다룬다. 이 작업은 일련의 프레임(즉, 이미지 시퀀스)이 주어진 수어 글로스(gloss) 중 하나로 분류되는 분류 문제로 정의된다. 우리는 두 가지 외형 기반 접근법인 I3D와 TimeSformer, 그리고 하나의 자세 기반 접근법인 SPOTER을 분석한다. 외형 기반 접근법들은 다양한 데이터 모달리티에서 훈련되며, SPOTER의 성능은 서로 다른 전처리 방식에 대해 평가된다. 모든 방법은 공개된 두 가지 데이터셋인 AUTSL과 WLASL300에서 테스트된다. 우리는 CMA-ES 최적화 방법을 활용하여 최적의 앙상블 가중치 파라미터를 탐색함으로써, WLASL300 데이터셋에서 기존 최고 성능을 넘는 73.84%의 정확도를 달성하기 위해 앙상블 기법을 실험한다. 더불어, Transformer 모델 기반의 새로운 앙상블 기법인 Neural Ensembler를 제안한다.