2달 전
아랍어 방송 연설에서 자동 방언 감지
Ahmed Ali; Najim Dehak; Patrick Cardinal; Sameer Khurana; Sree Harsha Yella; James Glass; Peter Bell; Steve Renals

초록
아랍어 방송 음성에서 방언 식별을 위한 다양한 접근법을 조사하였습니다. 이 연구에서는 음성 인식 시스템으로부터 얻은 음운학적, 어휘학적 특징과 i-벡터 프레임워크를 사용한 음향학적 특징을 활용하였습니다. 생성 모델과 판별 모델 분류기를 모두 연구하였으며, 다중 클래스 서포트 벡터 머신(SVM)을 사용하여 이러한 특징들을 결합하였습니다. 아랍어/영어 언어 식별 작업에서 우리의 결과를 검증하였으며, 정확도는 100%였습니다. 또한 이 특징들을 이진 분류기에 적용하여 현대 표준 아랍어(MSA)와 방언 아랍어를 구분하는데 사용하였으며, 정확도는 100%였습니다. 더 나아가 가장 널리 사용되는 아랍어의 다섯 가지 주요 방언인 이집트 방언, 걸프 방언, 레바논 방언, 북아프리카 방언 및 MSA 간의 구분에 제안된 방법을 사용한 결과를 보고합니다. 정확도는 52%였습니다. 우리는 MSA와 방언 아랍어 사이의 방언 코드 전환(CODE-SWITCHING) 맥락에서 방언 식별 오류를 논의하며, 수동으로 라벨링된 데이터와 분류기 출력 간의 오류 패턴을 비교하였습니다. 또한 우리는 방언 식별을 위한 표준 코퍼스로 학습용 및 테스트용 데이터를 공개하였습니다.