17일 전

반복 프로토타입을 활용한 수어 번역

Huijie Yao, Wengang Zhou, Hao Feng, Hezhen Hu, Hao Zhou, Houqiang Li
반복 프로토타입을 활용한 수어 번역
초록

이 논문은 수어 번역(SLT)을 위한 간단하면서도 효과적인 프레임워크인 IP-SLT를 제안한다. IP-SLT는 순환 구조를 채택하며, 입력 수어 영상의 의미 표현(프로토타입)을 반복적 개선 방식으로 강화한다. 본 연구의 아이디어는 인간의 독해 과정을 모방한 것으로, 문장은 정확한 이해에 도달할 때까지 반복적으로 해석될 수 있음을 시사한다. 기술적으로 IP-SLT는 특징 추출, 프로토타입 초기화, 반복적 프로토타입 개선의 세 가지 단계로 구성된다. 초기화 모듈은 특징 추출 모듈이 추출한 시각적 특징을 기반으로 초기 프로토타입을 생성한다. 이후 반복적 개선 모듈은 교차 주의(cross-attention) 메커니즘을 활용하여 원본 영상 특징과 결합함으로써 이전 프로토타입을 보완한다. 반복적인 개선 과정을 거쳐 프로토타입은 더 안정적이고 정확한 상태로 수렴하게 되며, 이는 자연스럽고 적절한 번역 결과를 도출하게 된다. 또한, 프로토타입 간의 순차적 의존성을 활용하기 위해, 최종 반복 단계의 지식을 이전 단계로 압축하는 반복적 교사 손실(Iterative Distillation Loss)을 추가로 제안한다. 추론 시 자동 회귀적 디코딩은 단 한 번만 수행되기 때문에, IP-SLT는 추가적인 부담을 감수하면서도 다양한 SLT 시스템의 성능 향상에 활용 가능하다. 공개 벤치마크에서 실시한 광범위한 실험을 통해 IP-SLT의 효과성을 입증하였다.