9일 전
두 스트림 네트워크를 활용한 수어 인식 및 번역
Yutong Chen, Ronglai Zuo, Fangyun Wei, Yu Wu, Shujie Liu, Brian Mak

초록
수신 언어는 수동적 발음과 비수동적 요소를 사용하여 정보를 전달하는 시각적 언어이다. 수신 언어 인식 및 번역을 위한 기존 대부분의 접근법은 RGB 영상을 직접 은닉 표현으로 인코딩한다. 그러나 RGB 영상은 시각적 중복성이 큰 원시 신호이므로, 인코더가 수신 언어 이해에 핵심적인 정보를 간과하게 된다. 이 문제를 완화하고 손모양, 신체 움직임과 같은 도메인 지식을 더 효과적으로 반영하기 위해, 외부에서 제공하는 관절점 추정기로부터 생성된 관절점 시퀀스와 원시 영상 둘 다를 모델링할 수 있는 두 개의 별도 스트림을 갖춘 이중 시각 인코더를 제안한다. 두 스트림 간의 상호작용을 유도하기 위해 양방향 측면 연결, 보조 감독을 통한 수신 언어 피라미드 네트워크, 프레임 단위 자기-distillation 등 다양한 기법을 탐구하였다. 결과적으로 개발된 모델은 TwoStream-SLR로 명명되며, 수신 언어 인식(SLR)에 적합하다. 이 모델은 추가적인 번역 네트워크를 단순히 연결함으로써 수신 언어 번역(SLT) 모델인 TwoStream-SLT로 확장할 수 있다. 실험 결과, 다양한 데이터셋(Phoenix-2014, Phoenix-2014T, CSL-Daily)에서 TwoStream-SLR 및 TwoStream-SLT가 각각 SLR 및 SLT 작업에서 최신 기술 수준의 성능을 달성하였다. 코드와 모델은 다음 주소에서 제공된다: https://github.com/FangyunWei/SLRT.