9일 전

지속적 수어 인식을 위한 자기강조 네트워크

Lianyu Hu, Liqing Gao, Zekang liu, Wei Feng
지속적 수어 인식을 위한 자기강조 네트워크
초록

손과 얼굴은 수어를 표현하는 데 중요한 역할을 한다. 이러한 영역의 특징은 일반적으로 시스템 성능 향상에 특별히 활용된다. 그러나 손과 얼굴의 시각적 표현을 효과적으로 추출하고 궤적을 포착하기 위해 기존 방법들은 높은 계산량과 함께 훈련 복잡도가 증가하는 문제가 있다. 이러한 방법들은 보통 인간 신체의 주요 점(키포인트)을 위치시키기 위해 추가적인 무거운 포즈 추정 네트워크를 사용하거나, 보조적인 사전 추출된 히트맵을 활용하여 감독을 받는다. 이러한 문제를 완화하기 위해, 우리는 추가적인 계산 비용이 적고, 비용이 큰 보조 감독 없이도 자기주도적으로 정보가 풍부한 공간 영역을 강조할 수 있는 자가강조 네트워크(Self-emphasizing Network, SEN)를 제안한다. 구체적으로 SEN은 먼저 경량 하위 네트워크를 활용하여 국부적인 시공간 특징을 통합하여 정보가 풍부한 영역을 식별하고, 이후 주의 맵(attention map)을 통해 원본 특징을 동적으로 보강한다. 또한 모든 프레임이 인식에 동일한 기여를 하는 것은 아님을 관찰하였으며, 이를 바탕으로 차별적 프레임을 적응적으로 강조하고 불필요한 프레임은 억제하는 시간적 자가강조 모듈(temporal self-emphasizing module)을 제안한다. 손과 얼굴 특징을 활용하는 기존 방법들과의 종합적인 비교 결과, 우리 방법은 높은 계산량과 고비용의 보조 감독에 의존하는 기존 방법들에 비해 우수한 성능을 보였다. 특히, 추가적인 계산 비용이 극히 적은 상태에서, SEN은 PHOENIX14, PHOENIX14-T, CSL-Daily, CSL의 네 개의 대규모 데이터셋에서 새로운 최고 성능(SOTA)을 달성하였다. 시각화 결과를 통해 SEN이 정보가 풍부한 공간적 및 시간적 특징을 효과적으로 강조함을 확인할 수 있었다. 코드는 다음 링크에서 확인할 수 있다: https://github.com/hulianyuyy/SEN_CSLR

지속적 수어 인식을 위한 자기강조 네트워크 | 최신 연구 논문 | HyperAI초신경