自然语言处理 Natural Language Processing

自然语言处理 NLP 是一门交叉学科,其涉及人工智能、语言学、计算机等学科,它探讨的是让计算机处理自然语言的问题。

自然语言处理基于大数据、知识图谱、机器学习、语言学等技术和资源,以此实现计算机对自然语言的交互过程。

根据自然语言的输入和输出,NLP 可分为两个技术领域:

  • 计算机输入自然语言对应于自然语言理解
  • 计算机输出自然语言对应于自然语言生成

NLP 难点

NLP 难点集中于歧义性、鲁棒性、知识依赖、语境理解等。

目前,实现 NLP 的方法目前有规则方法;统计方法和深度学习三种。

NLP 主要应用

  • 文本朗读 Text to speech
  • 语音合成 Speech synthesis
  • 语音识别 Speech recognition
  • 中文自动分词 Chinese word segmentation
  • 词性标注 Part-of-speech tagging
  • 句法分析 Parsing
  • 自然语言生成 Natural language generation
  • 文本分类 Text categorization
  • 问答系统 Question answering
  • 机器翻译 Machine translation
  • 自动摘要 Automatic summarization
  • 文字蕴涵 Textual entailment
  • 信息检索 Information retrieval
  • 信息抽取 Information extraction
  • 文字校对 Text-proofing

NLP 发展趋势

  • 传统基于句法-语义的规则已经受到质疑,随着语料库建设和语言学的崛起,大规模真实文本处理已经成为 NLP 领域的主要方向;
  • 统计数学法受到重视,NLP 领域越来越多的采用机器自动学习法获取语言知识;
  • 浅层处理与深层处理并重,统计与规则方法并重,以此形成混合式系统;
  • NLP 越来越重视词汇的应用,并出现了强烈的「词汇主义」的倾向,词汇知识库的构建成为普遍关注的问题。
相关词: NLG、NLU