17일 전
EfficientNet-절대 제로를 활용한 지속적 음성 키워드 탐지
Amir Mohammad Rostami, Ali Karimi, Mohammad Ali Akhaee

초록
키워드 스포팅은 컴퓨터를 이용해 녹음된 대화에서 특정 단어나 구를 탐지하는 과정이다. 깊은 신경망 알고리즘은 적절한 데이터셋을 기반으로 훈련된 경우, 이 문제를 효과적으로 처리할 수 있는 강력한 엔진으로 작용한다. 이를 위해 페르시아어를 대상으로 한 새로운 키워드 스포팅 데이터셋인 축구 키워드 데이터셋(Football Keyword Dataset, FKD)이 커뮤니티 기반 방식으로 수집되었다. 이 데이터셋은 18개의 클래스에 총 약 31,000개의 샘플을 포함하고 있다. 또한, 실용적인 연속 음성 환경에서의 적용을 위해 연속 음성 합성 기법이 제안되어 FKD의 활용 가능성을 높였다. 더불어, 키워드 스포팅 작업에 적합한 경량 아키텍처인 EfficientNet-A0(절대 제로)을 EfficientNet-B0에 복합 스케일링 기법을 적용하여 제안하였다. 최종적으로 제안된 아키텍처는 다양한 모델들과 비교 평가되었으며, EfficientNet-A0 및 ResNet 모델이 이 데이터셋에서 다른 모델들보다 우수한 성능을 보였다.