
초록
청각 인지의 핵심 기능 중 하나는 시간이 지남에 따라 특정 음향을 그에 해당하는 의미와 연결짓는 것이다. 미세한 음성 카테고리 간을 구분하려는 인간은 종종 판별에 중요한 음향을 반복 재생함으로써 예측 신뢰도를 높인다. 본 연구에서는 음성 시퀀스 내에서 가장 판별력 있는 음향에 집중하기 위해 선택적 반복을 수행하는 엔드투엔드 주의 기반 아키텍처를 제안한다. 제안하는 모델은 초기에 전체 음성 시퀀스를 사용하며, 슬롯 주의(slot attention)를 기반으로 반복 재생되는 시간적 구간을 반복적으로 정밀화한다. 각 재생 단계에서 선택된 구간은 더 작은 홉 길이(hop length)로 재생되며, 이는 해당 구간 내에서 보다 높은 해상도의 특징을 표현한다. 실험을 통해 제안한 방법이 AudioSet, VGG-Sound, EPIC-KITCHENS-100 세 가지 음성 분류 벤치마크에서 일관되게 최고 수준의 성능을 달성함을 입증하였다.