
초록
언어 식별(LI)은 여러 음성 처리 시스템에서 중요한 첫 단계입니다. 음성 기반 비서의 증가에 따라, 언어 식별을 위한 음성 LI는 널리 연구되는 분야로 부상하고 있습니다. 언어를 식별하기 위해, 우리는 해당 언어의 음성만 있는 암시적 접근 방식 또는 해당 텍스트와 함께 전사본이 있는 명시적 접근 방식 중 하나를 선택할 수 있습니다. 본 논문에서는 전사본 데이터가 부족한 이유로 암시적 접근 방식에 초점을 맞추고 있습니다. 본 논문은 기존 모델들을 벤치마킹하고, 로그-멜 스펙트로그램 이미지를 입력으로 사용하는 새로운 주의 메커니즘 기반 모델을 제안합니다. 또한, 신경망 모델에서 LI 작업을 위한 원시 웨이브폼의 특징 효과성을 제시합니다. 모델의 학습 및 평가를 위해, 우리는 VoxForge 데이터셋에서 영어, 프랑스어, 독일어, 스페인어, 러시아어 및 이탈리아어(6개 언어)를 95.4%의 정확도로 분류하였으며, 영어, 프랑스어, 독일어 및 스페인어(4개 언어)를 96.3%의 정확도로 분류하였습니다. 이 접근 방식은 추가적으로 더 많은 언어를 포함하도록 확장될 수 있습니다.