9일 전

수어 인식 및 번역을 위한 다중 스트림 키포인트 어텐션 네트워크

Mo Guan, Yan Wang, Guangkun Ma, Jiarui Liu, Mingzu Sun
수어 인식 및 번역을 위한 다중 스트림 키포인트 어텐션 네트워크
초록

수신어는 음성 없이 제스처, 얼굴 표정 및 신체 운동을 통해 정보와 의미를 전달하는 비음성적 의사소통 수단이다. 현재 대부분의 수신어 인식(SLR) 및 번역 기술은 RGB 영상 입력에 의존하고 있으며, 이는 배경의 변화에 취약하다는 단점이 있다. 키포인트 기반 전략을 활용하면 배경 변화의 영향을 완화할 뿐만 아니라 모델의 계산적 부담을 크게 줄일 수 있다. 그러나 기존의 키포인트 기반 기법들은 키포인트 시퀀스 내에 내재된 암묵적 지식을 충분히 활용하지 못하고 있다. 이 문제를 해결하기 위해 인간의 인지 메커니즘을 영감으로 삼아, 제스처 구성과 보조 요소 간의 상호작용을 분석함으로써 수신어를 인식하는 방식을 채택하였다. 본 연구에서는 쉽게 확보할 수 있는 키포인트 추정기로부터 생성된 키포인트 시퀀스를 효과적으로 표현하기 위해 다중 스트림 키포인트 주의망(MSKA)을 제안한다. 다양한 스트림 간의 상호작용을 촉진하기 위해 키포인트 융합 전략, 헤드 융합, 그리고 자기 교사(self-distillation)와 같은 다양한 방법론을 탐구하였다. 제안된 프레임워크는 MSKA-SLR로 명명되며, 추가적인 번역 네트워크를 단순히 추가함으로써 수신어 번역(SLT) 모델로 확장할 수 있다. 주요 벤치마크인 Phoenix-2014, Phoenix-2014T, CSL-Daily에서 종합적인 실험을 수행하여 제안 방법의 유효성을 입증하였다. 특히, Phoenix-2014T의 수신어 번역 작업에서 새로운 최고 성능(SOTA)을 달성하였다. 코드 및 모델은 다음 링크에서 확인할 수 있다: https://github.com/sutwangyan/MSKA.