자동 음성 인식
자동 음성 인식 기술은 사람의 말을 텍스트로 변환하는 기술입니다. 음성 신호의 다양성과 복잡성으로 인해, 현재의 음성 인식 시스템은 특정 제약 하에서만 만족스러운 성능을 달성할 수 있습니다(특정한 경우에만 적용 가능).
자동 음성 인식 정의
자동 음성 인식 기술의 목표는 여러 사람이 말한 연속된 말을 컴퓨터가 "받아쓰도록" 하는 것인데, 이를 일반적으로 "음성 받아쓰기 기계"라고 합니다. "소리"를 "문자"로 변환하는 기술입니다.
성과에 영향을 미치는 요인
음성 인식 시스템의 성능은 일반적으로 다음 네 가지 요소에 따라 달라집니다.
- 어휘의 양과 말의 복잡성을 인식합니다.
- 음성 신호의 품질
- 단일 스피커 또는 다중 스피커;
- 하드웨어.
자동 음성 인식 분류
자동 음성 인식은 일반적으로 다음과 같은 방식으로 분류됩니다.
- 시스템 사용자에 따라 특정인 식별 시스템과 비특정인 식별 시스템으로 구분할 수 있습니다.
- 어휘체계에 따르면: 소어휘체계, 중어휘체계, 대어휘체계;
- 음성의 입력 방식에 따라: 단일 단어, 연결된 단어, 연속 음성 시스템 등이 있습니다.
- 입력 음성의 발음에 따라 다음과 같이 나눌 수 있습니다. 읽기 스타일, 말하기(자연스러운 발음) 스타일;
- 입력 음성의 방언 배경에 따라 다음과 같이 나눌 수 있습니다: 만다린어, 방언 배경을 가진 만다린어, 방언 음성 인식 시스템;
- 입력된 음성의 감정 상태에 따라 중립적 음성과 감정적 음성 인식 시스템으로 구분됩니다.
자동 음성 인식 모델
주류의 대규모 어휘 음성 인식 시스템은 대부분 통계적 패턴 인식 기술을 사용합니다. 통계적 패턴 인식 방법을 기반으로 하는 일반적인 음성 인식 시스템은 다음과 같은 기본 모듈로 구성됩니다.
- 신호 처리 및 특징 추출 모듈: 이 모듈의 주요 작업은 음향 모델에서 처리할 수 있도록 입력 신호에서 특징을 추출하는 것입니다. 동시에 일반적으로 환경 소음, 채널, 스피커 및 기타 요소가 기능에 미치는 영향을 최소화하기 위한 몇 가지 신호 처리 기술도 포함됩니다.
- 음향 모델: 일반적인 시스템은 대부분 1차 은닉 마르코프 모델을 기반으로 모델링됩니다.
- 발음 사전: 발음 사전에는 시스템이 처리할 수 있는 어휘 집합과 발음이 포함되어 있습니다. 발음 사전은 실제로 음향 모델 모델링 단위와 언어 모델 모델링 단위 간의 매핑을 제공합니다.
- 언어 모델: 언어 모델은 시스템이 대상으로 하는 언어를 모델링합니다. 이론적으로는 정규 언어와 문맥 자유 문법을 포함한 다양한 언어 모델을 언어 모델로 사용할 수 있지만, 현재 다양한 시스템에서는 주로 통계적 N-gram 문법과 그 변형을 사용하고 있다.
- 디코더: 디코더는 음성 인식 시스템의 핵심 구성 요소 중 하나입니다. 이 알고리즘의 과제는 음향학, 언어 모델, 사전을 기반으로 가장 높은 확률로 신호를 출력할 수 있는 단어 문자열을 찾는 것입니다.