17일 전
CSVC-Net: 깊은 CNN-LSTM 네트워크를 이용한 코드 스위칭 음성 명령 분류
{Md. Hasanul Kabir, Sabbir Ahmed, Fariha Ishrat Rahman, Arowa Yasmeen}
초록
식민지적 영향으로 인해 구어체 벤골어는 많은 영어 단어를 수용해 왔다. 대화체 벤골어에서는 벤골어와 영어를 혼합하여 말하는 것이 매우 흔하며, 이를 '코드 스위칭(Code-switching, CS)'이라고 부른다. 이러한 코드 스위칭의 사용이 점점 증가하는 시대에 음성 명령 분류기(voice command classifier)를 구축하기 위해서는 단일 기본 명령어를 여러 언어 혼합 형태로 표현된 다양한 변형들에 매핑하는 것이 종종 필요하다. 기존의 벤골어 음성 연구는 주로 단어 수준의 분류에 집중되어 있으며, 문장 내에서 나타나는 복잡한 의미 관계를 이해하는 데는 대부분 한계가 있었다. 본 논문은 벤골어와 영어 간 코드 스위칭을 보이는 음성 명령어를 분류하기 위한 CNN-LSTM 기반의 아키텍처인 ‘CSVC-Net’을 제안한다. 이를 효과적으로 반영하기 위해, 총 11개 클래스에 속하는 3,840개의 음성 파일을 포함하며, 총 64가지의 언어 혼합 변형을 고려한 새로운 커리레이티드 데이터셋인 ‘Banglish’를 제시한다. 제안된 파이프라인은 입력 음성 신호를 적절한 변환 및 증강 처리 단계를 거쳐 전달함으로써, 커리레이티드 데이터셋에서 92.08%의 정확도를 달성하였다. 또한, 다양한 아키텍처와의 비교 및 다양한 노이즈 수준에서의 테스트를 통해 제안 모델의 강건성을 입증하였으며, 높은 정확도를 유지함으로써 실제 생활 환경에서의 적용 가능성을 입증하였다.