计算语言学 Computational Linguistics

计算语言学是一门通过数学模型来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的学科。

基本内容

计算语言学可按其工作性质和复杂程度分为以下 3 类:

  1. 自动编排:这是计算机最擅长的工作,也是计算语言学中最成熟的部分。对各种语言素材进行统计、分类、排序,编辑各种词表、索引和词典,建立语料库、术语数据库等。
  2. 自动分析:这是一种较复杂的语言自动处理。这种自动分析系统是根据事先存入计算机内的特定语言信息进行工作, 目的在于得到预先规定的结论。
  3. 自动研究: 这是一种更复杂的语言自动处理。这种自动研究系统是根据计算机内存储的一般语言信息进行工作,借助统计、比较、类推等手段,得出自己推断的结论。

应用

​计算语言学的核心是语言的自动理解和自动生成,前者从句子表层的词语符号串识别句子的句法结构,判断成分之间的语义关系,最终弄清句子表达的意思;后者从要表达的意思出发选择词语,根据词语间的语义关系构造各个成分之间的语义结构和句法结构,最终造出符合语法和逻辑的句子。

计算语言学分为科学研究与技术研究两个层次:科学研究的目的是发现语言的内在规律、探索语言理解和生成的计算方法、建设语言信息处理的基础资源;技术研究则是借助应用目标来驱动,根据社会的实际需要,设计和开发实用的语言信息处理系统。