17일 전

EfficientNet-절대 제로를 활용한 지속적 음성 키워드 탐지

Amir Mohammad Rostami, Ali Karimi, Mohammad Ali Akhaee
EfficientNet-절대 제로를 활용한 지속적 음성 키워드 탐지
초록

키워드 스포팅은 컴퓨터를 이용해 녹음된 대화에서 특정 단어나 구를 탐지하는 과정이다. 깊은 신경망 알고리즘은 적절한 데이터셋을 기반으로 훈련된 경우, 이 문제를 효과적으로 처리할 수 있는 강력한 엔진으로 작용한다. 이를 위해 페르시아어를 대상으로 한 새로운 키워드 스포팅 데이터셋인 축구 키워드 데이터셋(Football Keyword Dataset, FKD)이 커뮤니티 기반 방식으로 수집되었다. 이 데이터셋은 18개의 클래스에 총 약 31,000개의 샘플을 포함하고 있다. 또한, 실용적인 연속 음성 환경에서의 적용을 위해 연속 음성 합성 기법이 제안되어 FKD의 활용 가능성을 높였다. 더불어, 키워드 스포팅 작업에 적합한 경량 아키텍처인 EfficientNet-A0(절대 제로)을 EfficientNet-B0에 복합 스케일링 기법을 적용하여 제안하였다. 최종적으로 제안된 아키텍처는 다양한 모델들과 비교 평가되었으며, EfficientNet-A0 및 ResNet 모델이 이 데이터셋에서 다른 모델들보다 우수한 성능을 보였다.