自然语言处理 Natural Language Processing
自然语言处理 NLP 是一门交叉学科,其涉及人工智能、语言学、计算机等学科,它探讨的是让计算机处理自然语言的问题。
自然语言处理基于大数据、知识图谱、机器学习、语言学等技术和资源,以此实现计算机对自然语言的交互过程。
根据自然语言的输入和输出,NLP 可分为两个技术领域:
- 计算机输入自然语言对应于自然语言理解 ;
- 计算机输出自然语言对应于自然语言生成 。
NLP 难点
NLP 难点集中于歧义性、鲁棒性、知识依赖、语境理解等。
目前,实现 NLP 的方法目前有规则方法;统计方法和深度学习三种。
NLP 主要应用
- 文本朗读 Text to speech
- 语音合成 Speech synthesis
- 语音识别 Speech recognition
- 中文自动分词 Chinese word segmentation
- 词性标注 Part-of-speech tagging
- 句法分析 Parsing
- 自然语言生成 Natural language generation
- 文本分类 Text categorization
- 问答系统 Question answering
- 机器翻译 Machine translation
- 自动摘要 Automatic summarization
- 文字蕴涵 Textual entailment
- 信息检索 Information retrieval
- 信息抽取 Information extraction
- 文字校对 Text-proofing
NLP 发展趋势
- 传统基于句法-语义的规则已经受到质疑,随着语料库建设和语言学的崛起,大规模真实文本处理已经成为 NLP 领域的主要方向;
- 统计数学法受到重视,NLP 领域越来越多的采用机器自动学习法获取语言知识;
- 浅层处理与深层处理并重,统计与规则方法并重,以此形成混合式系统;
- NLP 越来越重视词汇的应用,并出现了强烈的「词汇主义」的倾向,词汇知识库的构建成为普遍关注的问题。