词性标注 Part-of-Speech Tagging
词性标注(POS tagging ) 是将对句子中的词语进行分类标注的过程。是依据字词在句法结构或语言形态上承担的成分,通过词性分类赋予每个词的词性标记的过程。
也就是要确定句子中每个词是名词、动词、形容词或其他词性的过程,又称词类标注或者简称标注。
词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的许多领域都有应用。
词的分类
词主要可以分为以下 2 类:
- 实词:名词、动词、形容词、状态词、区别词、数词、量词、代词
- 虚词:副词、介词、连词、助词、拟声词、叹词。
词性标注指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词的词性的过程。
词性标注实现的方法:
主要可以分为基于规则和基于统计的方法,主要有
(1)基于最大熵的词性标注
(2)基于统计最大概率输出词性
(3)基于 HMM 的词性标注
词性标注的应用:
(1)句法分析预处理
(2)词汇获取预处理
(3)信息抽取预处理
词性标注和其他
(1)词性标注从本质上来说,也是一个序列标注的问题,再细化,是一个分类问题。
(2)词性标注和中文分词是紧密相连的,可通过两种途径将它们进行结合。
- 管道/串行(Pipeline):先分词,再标注
- 联合模型(Joint Model):分词和标注同时进行