
지난 20년간 컨볼루셔널 신경망(CNN) 아키텍처는 특징의 계층적 구조를 학습함으로써 청각 인지 및 청각 인식에 대한 매력적인 모델을 만들어냈다. 컴퓨터 비전 분야의 성공 사례와 유사하게, 다양한 데이터셋과 레이블을 기반으로 특정 작업에 최적화된 음성 특징 분류가 가능하다. 실제로 이미지 이해를 위해 설계된 유사한 아키텍처들이 음향 환경 분석에 효과적임이 입증된 바 있다. 본 연구에서는 컨볼루션 계층 없이 트랜스포머 기반 아키텍처를 원시 음성 신호에 직접 적용하는 방안을 제안한다. 자유 음성 50K(Free Sound 50K)라는 표준 데이터셋(200개 카테고리)을 기반으로 한 실험에서, 제안 모델은 기존 컨볼루션 기반 모델을 능가하며 최신 기술 수준의 성능을 달성하였다. 이는 자연어 처리 및 컴퓨터 비전과 달리, 컨볼루션 아키텍처를 능가하기 위해 비지도 사전 학습을 수행하지 않았다는 점에서 특히 의미가 있다. 동일한 학습 세트를 기반으로 평균 정밀도(mean average precision) 기준에서 상당한 성능 향상을 입증하였다. 또한 최근 몇 년간 개발된 컨볼루션 네트워크에서 영감을 얻은 풀링 기법 등을 활용하여 트랜스포머 아키텍처의 성능을 추가로 향상시켰다. 더불어 웨이브렛에서 영감을 얻은 다중 속도 신호 처리 기법을 트랜스포머 임베딩에 적용함으로써 성능 향상을 가능하게 했다. 마지막으로, 본 연구는 제안 모델이 비선형적이고 일정하지 않은 대역폭 필터뱅크를 학습함으로써, 음성 이해라는 작업에 적합한 적응형 시간-주파수 전단 표현을 형성할 수 있음을 보여주었다. 이는 피치 추정과 같은 다른 작업과는 달리, 음성 이해라는 목적에 특화된 표현 방식임을 시사한다.