自动语音识别 Automatic Speech Recognition
自动语音识别技术是一种将人的语音转换为文本的技术,由于语音信号的多样性和复杂性,目前语音识别系统只能在一定的限制条件下获得满意的性能(只能应用于某些特定的场合)。
自动语音识别定义
自动语音识别技术的目标是让计算机能够「听写」出不同人所说出的连续语音,也就是俗称的「语音听写机」,是实现「声音」到「文字」转换的技术。
性能影响因素
语音识别系统的性能大致取决于以下 4 类因素:
- 识别词汇表的大小和语音的复杂性;
- 语音信号的质量;
- 单个说话人还是多说话人;
- 硬件。
自动语音识别分类
自动语音识别通常有以下几种分类方法:
- 按系统的用户情况分:特定人和非特定人识别系统;
- 按系统词汇量分:小词汇量、中词汇量和大词汇量系统;
- 按语音的输入方式分:孤立词、连接词、连续语音系统等;
- 按输入语音的发音方式分:朗读式、口语(自然发音)式;
- 按输入语音的方言背景情况分:普通话、方言背景普通话、方言语音识别系统;
- 按输入语音的情感状态分;中性语音、情感语音识别系统。
自动语音识别模型
主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成:
- 信号处理及特征提取模块:该模块的主要任务是从输入信号中提取特征,供 声学模型 处理。同时,它一般也包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。
- 声学模型:典型系统多采用基于一阶隐马尔科夫模型进行建模。
- 发音词典:发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。
- 语言模型:语言模型对系统所针对的语言进行建模。理论上,包括正则语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍采用的还是基于统计的 N 元文法及其变体。
- 解码器:解码器是语音识别系统的核心之一,其任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。