
초록
시그니처 언어 번역(SLT)은 시그니처 언어 영상에서 자연어로 변환하는 것을 목표로 하지만, 문장 레이블 내 시각적 행동과 텍스트 단어 사이에 정확한 대응 관계가 없기 때문에 약한 지도(weakly supervised) 환경에서 수행된다.이러한 문제를 해결하기 위해, 시그니처 언어 행동을 자동으로 정렬하고 해당 단어로 번역하기 위해 본 논문은 계층적 관점에서 행동을 포착할 수 있는 밀도 있는 시간적 컨볼루션 네트워크(DenseTCN)를 제안한다. 이 네트워크 내에서 시간적 컨볼루션(TC)을 설계하여 인접한 특성 간의 단기적 상관관계를 학습하고, 이를 계층적 밀도 구조로 확장한다. $k^{\mathrm{th}}$ TC 계층에서는 이전 모든 계층의 출력을 통합한다. (1) 더 깊은 계층의 TC는 본질적으로 더 큰 수용 영역을 가지며, 계층적 콘텐츠 전이를 통해 장기적인 시계열적 맥락을 포착할 수 있다. (2) 이러한 통합은 임베딩된 단기적 시퀀스 학습과 확장된 장기적 시퀀스 학습이라는 다양한 관점에서 SLT 문제를 해결한다. 마지막으로, 특징별 분류를 학습하고 번역 문장을 생성하기 위해 CTC 손실과 융합 전략을 도입한다. PHOENIX와 USTC-ConSents라는 두 가지 대표적인 시그니처 언어 벤치마크에서의 실험 결과는 제안된 방법이 다양한 평가 지표에서 효과적임을 입증한다.