词性标注 Part-of-Speech Tagging

词性标注(POS tagging ) 是将对句子中的词语进行分类标注的过程。是依据字词在句法结构或语言形态上承担的成分,通过词性分类赋予每个词的词性标记的过程。

也就是要确定句子中每个词是名词、动词、形容词或其他词性的过程,又称词类标注或者简称标注。

词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的许多领域都有应用。

词的分类

词主要可以分为以下 2 类:

  • 实词:名词、动词、形容词、状态词、区别词、数词、量词、代词
  • 虚词:副词、介词、连词、助词、拟声词、叹词。

词性标注指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词的词性的过程。

词性标注实现的方法:

主要可以分为基于规则和基于统计的方法,主要有

(1)基于最大熵的词性标注

(2)基于统计最大概率输出词性

(3)基于 HMM 的词性标注

词性标注的应用:

(1)句法分析预处理

(2)词汇获取预处理

(3)信息抽取预处理

词性标注和其他

(1)词性标注从本质上来说,也是一个序列标注的问题,再细化,是一个分类问题。

(2)词性标注和中文分词是紧密相连的,可通过两种途径将它们进行结合。

  • 管道/串行(Pipeline):先分词,再标注
  • 联合模型(Joint Model):分词和标注同时进行
相关词: 语法树