10일 전

메모리 증강 측방 트랜스포머를 갖춘 스폿패스트 네트워크를 이용한 입술 읽기

Peratham Wiriyathammabhum
메모리 증강 측방 트랜스포머를 갖춘 스폿패스트 네트워크를 이용한 입술 읽기
초록

본 논문은 단어 수준의 입술 읽기(word-level lipreading)를 위한 새로운 딥러닝 아키텍처를 제안한다. 기존 연구들은 사전 학습된 3차원 컨볼루션 신경망(3D Convolutional Neural Networks)을 전단(feature extractor)으로 활용할 가능성에 주목하고 있다. 본 연구에서는 행동 인식 분야에서 최신 기술로 평가받는 SlowFast 네트워크의 변형인 SpotFast 네트워크를 제안한다. 이 네트워크는 시간 창(temporal window)을 ‘스팟 경로(spot pathway)’로, 모든 프레임을 ‘패스트 경로(fast pathway)’로 활용한다. 또한 분류를 위해 시계열 특징을 학습하기 위해 메모리 증강형 수평형 트랜스포머(lateral transformers)를 추가로 도입하였다. 제안된 모델은 LRW 데이터셋에서 평가되었으며, 실험 결과 다양한 최신 모델들과 비교해 우수한 성능을 보였다. 특히, 메모리 증강형 수평형 트랜스포머를 도입함으로써 SpotFast 네트워크의 성능이 3.7% 향상됨을 확인하였다.

메모리 증강 측방 트랜스포머를 갖춘 스폿패스트 네트워크를 이용한 입술 읽기 | 최신 연구 논문 | HyperAI초신경