2달 전

느린-빠른 청각 스트림을 이용한 음성 인식

Kazakos, Evangelos ; Nagrani, Arsha ; Zisserman, Andrew ; Damen, Dima
느린-빠른 청각 스트림을 이용한 음성 인식
초록

우리는 시간-주파수 스펙트로그램 입력을 처리하는 두 개의 스트림을 가진 컨볼루션 네트워크를 제안합니다. 시각 인식 분야에서 유사한 성공 사례를 바탕으로, 우리는 분리 가능한 컨볼루션과 다중 수준의 횡단 연결을 사용하여 천천히-빠르게(Slow-Fast) 청각 스트림을 학습합니다. 천천히(Slow) 경로는 높은 채널 용량을 가지며, 빠르게(Fast) 경로는 세밀한 시간 해상도에서 작동합니다. 우리는 VGG-Sound와 EPIC-KITCHENS-100이라는 두 가지 다양한 데이터셋에서 우리 제안의 중요성을 입증하고, 이들 모두에서 최신 기술(state-of-the-art) 결과를 달성하였습니다.