9일 전

연결주의 시계열 융합을 통한 수어 번역

{Meng, Zheng jun; Wang, Wen gang; Zha, Dan; Zhou, Shuo; Guo, Wang}
연결주의 시계열 융합을 통한 수어 번역
초록

지속적인 수어 번역(Continuous Sign Language Translation, CSLT)은 복잡한 수어 언어학적 구조 하에서 시각 기반 영상에서 자연어로 번역하는 약한 감독 문제이며, 문장 레이블에 포함된 단어들의 순서는 영상 내 각 수어 동작의 정확한 경계와 일치하지 않는다. 본 논문에서는 시간 컨볼루션 모듈(Temporal Convolution Module, TCOV), 양방향 게이트형 순환 단위 모듈(Bidirectional Gated Recurrent Unit Module, BGRU), 융합층 모듈(Fusion Layer Module, FL)로 구성된 하이브리드 딥 아키텍처를 제안하여 CSLT 문제를 해결한다. TCOV는 인접 클립 특징에 대한 단기적 시계열 전이(지역 패턴)를 추출하는 반면, BGRU는 시간 차원을 따라 장기적인 맥락 전이(전역 패턴)를 유지한다. FL은 TCOV와 BGRU의 특징 임베딩을 결합하여 두 모듈 간의 보완적 관계(상호 패턴)를 학습한다. 이를 바탕으로 각 모듈의 장점을 극대화하기 위해 공동 연결형 시계열 융합(Joint Connectionist Temporal Fusion, CTF) 메커니즘을 제안한다. 또한 성능 향상을 위해 단일 훈련만으로도 기존의 다중 EM 반복을 필요로 하는 방법들과 비교해 유사한 성능을 달성할 수 있도록 공동 CTC 손실 최적화 및 딥 분류 점수 기반 디코딩 융합 전략을 설계하였다. 제안된 방법은 기준 데이터셋인 RWTH-PHOENIX-Weather 데이터셋을 대상으로 실험을 수행하고 검증되었으며, 제안된 방법의 효과성을 입증하였다.