2달 전

주의력은 항상 필요한가? 음성에서 언어 식별 사례 연구

Atanu Mandal; Santanu Pal; Indranil Dutta; Mahidas Bhattacharya; Sudip Kumar Naskar
주의력은 항상 필요한가? 음성에서 언어 식별 사례 연구
초록

언어 식별(LID)은 다국어 환경에서 음성 샘플로부터 말하는 언어를 식별하는 과정으로, 자동 음성 인식(ASR) 분야에서 중요한 사전 단계입니다. 현대의 다국어 처리 시스템은 사용자가 시스템을 이용하기 전에 하나 이상의 언어를 명시적으로 지정하도록 요구합니다. ASR 시스템이 다국어 환경에서 말하는 언어를 이해하지 못해 음성 인식 결과가 실패하는 상황에서는 LID 작업이 중요한 역할을 합니다. 본 연구에서는 멜 주파수 셉스트럼 계수(MFCC) 특성을 기반으로 작동하는 합성곱 순환 신경망(CRNN) 기반 LID를 소개합니다. 또한, 최신 방법론 중 특히 합성곱 신경망(CNN)과 주의 메커니즘 기반 합성곱 순환 신경망(CRNN with attention)을 재현하여, 이들 방법론과 우리의 CRNN 기반 접근 방식을 비교 분석하였습니다. 우리는 13개의 다른 인도 언어에 대해 포괄적인 평가를 수행하였으며, 모델은 98% 이상의 분류 정확도를 보였습니다. 언어적 유사성이 높은 언어들의 경우 LID 모델의 성능 수준은 97%에서 100% 사이로 매우 높았습니다. 제안된 LID 모델은 추가 언어에 대한 확장성이 높으며, 노이즈가 있는 환경에서도 유럽 언어(EU) 데이터셋에 적용하여 91.2%의 정확도를 달성하였습니다.

주의력은 항상 필요한가? 음성에서 언어 식별 사례 연구 | 최신 연구 논문 | HyperAI초신경