초록
언어 식별(LID) 시스템은 주어진 오디오 샘플에서 말하는 언어를 분류하는 데 사용되며, 자동 음성 인식(ASR) 시스템 등 많은 구어 처리 작업의 첫 단계로 일반적으로 활용됩니다. 자동 언어 검출 없이는 음성 발화가 올바르게 해석되지 않고 문법 규칙이 적용될 수 없으므로, 후속 음성 인식 단계가 실패하게 됩니다. 본 연구에서는 오디오 영역이 아닌 이미지 영역에서 이 문제를 해결하는 LID 시스템을 제안합니다. 우리는 제공된 오디오 조각의 스펙트로그램 이미지를 처리하는 하이브리드 합성곱 순환 신경망(CRNN)을 사용합니다. 광범위한 실험을 통해 우리의 모델이 다양한 노이즈 환경에 적용 가능하며, 기존에 알려지지 않은 언어로도 쉽게 확장할 수 있으면서 분류 정확도를 유지함을 보여줍니다. 우리는 커뮤니티에 LID 시스템용 코드와 대규모 훈련 세트를 공개합니다.