9일 전

공간-시간 다중 신호 네트워크를 활용한 지속적 수어 인식

Hao Zhou, Wengang Zhou, Yun Zhou, Houqiang Li
공간-시간 다중 신호 네트워크를 활용한 지속적 수어 인식
초록

지속적인 수어 인식(Continuous Sign Language Recognition, CSLR) 분야에서 딥러닝 기술의 최근 성공에도 불구하고, 대부분의 딥 모델은 가장 구분력 있는 특징에만 집중하여, 다른 잠재적으로 유의미하고 정보가 풍부한 콘텐츠를 무시하는 경향이 있다. 이러한 특성은 다양한 시각적 신호(예: 손 모양, 얼굴 표정, 몸체 자세 등) 간의 상호작용 뒤에 숨겨진 암묵적 시각적 문법을 학습하는 데 큰 제약을 초래한다. 이를 해결하기 위해 신경망 설계에 다중 신호 학습(multi-cue learning)을 도입함으로써, 시공간적 다중 신호(Spatial-Temporal Multi-Cue, STMC) 네트워크를 제안한다. 제안하는 STMC 네트워크는 공간적 다중 신호(Spatial Multi-Cue, SMC) 모듈과 시간적 다중 신호(Temporal Multi-Cue, TMC) 모듈로 구성된다. SMC 모듈은 공간적 표현에 특화되어 있으며, 자체적으로 구현된 자세 추정 브랜치를 활용하여 각각의 신호(예: 손 모양, 얼굴 표정 등)에 대한 시각적 특징을 명시적으로 분해한다. TMC 모듈은 내부 신호(intra-cue)와 신호 간 상호작용(inter-cue)을 병렬로 처리하는 두 가지 경로를 통해 시간적 상관관계를 모델링함으로써, 각 신호의 독창성을 유지하면서 동시에 다중 신호 간의 협업 관계를 탐색한다. 마지막으로, STMC 네트워크의 엔드투엔드 시퀀스 학습을 달성하기 위해 공동 최적화 전략을 설계하였다. 효과성을 검증하기 위해 PHOENIX-2014, CSL, PHOENIX-2014-T 세 가지 대규모 CSLR 벤치마크에서 실험을 수행하였으며, 실험 결과 제안하는 방법이 세 벤치마크 모두에서 새로운 최고 성능(SOTA)을 달성함을 입증하였다.