错字修改 | 布署 1 个中文文文本拼蟹纠错模型

4 年前

资讯

内容一览：中文文本错误的种类之一为拼写错误，本篇文章为利用 BART 预训练方法实现中文文本纠错功能的模型部署教程。

关键词：BART 中文拼写纠错 NLP
本文首发自微信公众号：HyperAI 超神经

中文文本错误 3 大障碍：拼写、语法、语义

中文文本纠错是当前自然语言处理领域的一个重要分支，旨在针对中文文本错误等进行检测与纠正。常见的中文文本错误包括拼写错误、语法错误以及语义错误。

1. 拼写错误：

指由于输入法、语音转文字软件等原因导致的用字或用词错误，主要表现为错误使用了同音字、形近字、混消音等，如「天气晴郎– 天气晴朗」「时侯– 时候」。
中文拼写纠错示例该任务通常不涉及添/删字词，只涉及替换输出的句子一般是等长的

2. 语法错误：

指由于输入法、手写疏忽、 OCR 识别乱序等导致的字词缺失、冗余、乱序或搭配不当等，如「虚心使使人进步– 虚心使人进步」。

3. 语义错误：

由于对某些知识不了解，或语言组织能力欠缺导致的知识及逻辑错误，如「一年有 3 个季度– 一年有 4 个季度」。

本文中，我们将以最常见的拼写错误为例，演示如何借助 BART 模型，进行中文文本纠错模型部署。

直接运行教程请访问：

https://openbayes.com/console/open-tutorials/containers/YvkMjHySdef

BART：「采众长」的 SOTA 模型

BART 全称 Bidirectional and Auto-Regressive Transformers，是一个为预训练 seq2seq 模型而设计的去噪自编码器， 适用于自然语言生成、翻译及理解任务，由 Meta（原 Facebook）在 2019 年提出。

论文详见：
https://arxiv.org/pdf/1910.13461.pdf

BART 模型吸纳借鉴了 BERT 和 GPT 的优点，使用标准的 Transformer 结构作为基础：

解码器模块参考 GPT： 将 ReLU 激活函数替换为 GeLU 激活函数
编码器模块区别于 BERT： 舍弃了前馈神经网络模块，精简了模型参数
编解码器衔接部分参考了 Transformer： 解码器的每一层都要对编码器最后一层的输出信息进行交叉注意力计算（也就是编解码注意力机制）

本教程中，我们借助 nlp_bart_text-error-correction_chinese 模型进行模型部署。

更多信息可访问：

https://modelscope.cn/models/damo/nlp_bart_text-error-correction_chinese/summary

教程详解：创建一个在线文本纠错 Demo

环境准备

在 jupyter 终端中执行以下命令安装依赖：

pip install "modelscope[nlp]" -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
pip install fairseq

模型下载

在终端中执行以下命令下载模型：

git clone http://www.modelscope.cn/damo/nlp_bart_text-error-correction_chinese.git

模型下载需要较长时间，此容器中已有下载好的模型，可直接使用，位于 nlp_bart_text-error-correction_chinese 目录下。

快速使用

模型部署

Serving 服务编写

编写 predictor.py 文件：

导入依赖库：除了业务中用到的库之外，需要额外依赖 openbayes-serving 。

import openbayes_serving as serv
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

Predictor 类：无需继承其他类，至少提供 init 和 predict 两个接口。
在 __init__ 中指定模型路径，加载模型
在 predict 中进行推理，返回结果

class Predictor:
    def __init__(self):
        self.model_path = './nlp_bart_text-error-correction_chinese'
        self.corrector = pipeline(Tasks.text_error_correction, model=self.model_path)


def predict(self, json):
    text = json["input"].lower()
    result = self.corrector(text)
    return result

运行：启动服务

if __name__ == '__main__':
    serv.run(Predictor)

测试

在终端中执行 python predictor.py，成功开启服务后，在此 Notebook 中执行下列代码进行测试。

注意：在容器中进行测试时，flask 版本大于 2.1 可能出现重复注册报错，降低版本即可运行。

import requests
text = {"input": "这洋的话，下一年的福气来到自己身上。"}
result = requests.post('http://localhost:8080', json=text)
result.json()
{'output': '这样的话，下一年的福气就会来到自己身上。'}

除了通过本地访问地址 http://localhost:8080，还可以通过终端中提示的外部可访问的 URL 进行测试。

在这里插入图片描述
注意：对于不同的 OpenBayes 算力容器，外部可访问的 URL 各不相同，直接使用本教程中的链接是无效的，需用终端中提示的链接进行替换。

result = requests.post('https://openbayes.com/jobs-auxiliary/open-tutorials/t23g93jjm95d', json=text)
result.json()

部署

测试成功后，停止此算力容器，等待同步数据完成。

在「算力容器– 模型部署」中点击「创建新部署」，选择与开发时相同的镜像，绑定此算力容器，点击「部署」，即可进行在线测试。

更多模型部署相关信息可参考：

https://openbayes.com/docs/serving/

至此，一个支持在线测试的中文文本纠错模型就训练+部署完成啦！

查看并运行完整教程，访问以下链接：

https://openbayes.com/console/open-tutorials/containers/YvkMjHySdef

快来试试你的中文纠错模型吧！

—— 完 ——

参考链接：

[1] https://www.51cto.com/article/715865.html

[2] https://arxiv.org/pdf/1910.1346

错字修改 | 布署 1 个中文文文本拼蟹纠错模型

4 年前

资讯

内容一览：中文文本错误的种类之一为拼写错误，本篇文章为利用 BART 预训练方法实现中文文本纠错功能的模型部署教程。

关键词：BART 中文拼写纠错 NLP
本文首发自微信公众号：HyperAI 超神经

中文文本错误 3 大障碍：拼写、语法、语义

1. 拼写错误：

2. 语法错误：

指由于输入法、手写疏忽、 OCR 识别乱序等导致的字词缺失、冗余、乱序或搭配不当等，如「虚心使使人进步– 虚心使人进步」。

3. 语义错误：

由于对某些知识不了解，或语言组织能力欠缺导致的知识及逻辑错误，如「一年有 3 个季度– 一年有 4 个季度」。

本文中，我们将以最常见的拼写错误为例，演示如何借助 BART 模型，进行中文文本纠错模型部署。

直接运行教程请访问：

https://openbayes.com/console/open-tutorials/containers/YvkMjHySdef

BART：「采众长」的 SOTA 模型

论文详见：
https://arxiv.org/pdf/1910.13461.pdf

BART 模型吸纳借鉴了 BERT 和 GPT 的优点，使用标准的 Transformer 结构作为基础：

解码器模块参考 GPT： 将 ReLU 激活函数替换为 GeLU 激活函数
编码器模块区别于 BERT： 舍弃了前馈神经网络模块，精简了模型参数
编解码器衔接部分参考了 Transformer： 解码器的每一层都要对编码器最后一层的输出信息进行交叉注意力计算（也就是编解码注意力机制）

本教程中，我们借助 nlp_bart_text-error-correction_chinese 模型进行模型部署。

更多信息可访问：

https://modelscope.cn/models/damo/nlp_bart_text-error-correction_chinese/summary

教程详解：创建一个在线文本纠错 Demo

环境准备

在 jupyter 终端中执行以下命令安装依赖：

pip install "modelscope[nlp]" -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
pip install fairseq

模型下载

在终端中执行以下命令下载模型：

git clone http://www.modelscope.cn/damo/nlp_bart_text-error-correction_chinese.git

模型下载需要较长时间，此容器中已有下载好的模型，可直接使用，位于 nlp_bart_text-error-correction_chinese 目录下。

快速使用

模型部署

Serving 服务编写

编写 predictor.py 文件：

导入依赖库：除了业务中用到的库之外，需要额外依赖 openbayes-serving 。

import openbayes_serving as serv
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

Predictor 类：无需继承其他类，至少提供 init 和 predict 两个接口。
在 __init__ 中指定模型路径，加载模型
在 predict 中进行推理，返回结果

class Predictor:
    def __init__(self):
        self.model_path = './nlp_bart_text-error-correction_chinese'
        self.corrector = pipeline(Tasks.text_error_correction, model=self.model_path)


def predict(self, json):
    text = json["input"].lower()
    result = self.corrector(text)
    return result

运行：启动服务

if __name__ == '__main__':
    serv.run(Predictor)

测试

在终端中执行 python predictor.py，成功开启服务后，在此 Notebook 中执行下列代码进行测试。

注意：在容器中进行测试时，flask 版本大于 2.1 可能出现重复注册报错，降低版本即可运行。

import requests
text = {"input": "这洋的话，下一年的福气来到自己身上。"}
result = requests.post('http://localhost:8080', json=text)
result.json()
{'output': '这样的话，下一年的福气就会来到自己身上。'}

除了通过本地访问地址 http://localhost:8080，还可以通过终端中提示的外部可访问的 URL 进行测试。

result = requests.post('https://openbayes.com/jobs-auxiliary/open-tutorials/t23g93jjm95d', json=text)
result.json()

部署

测试成功后，停止此算力容器，等待同步数据完成。

在「算力容器– 模型部署」中点击「创建新部署」，选择与开发时相同的镜像，绑定此算力容器，点击「部署」，即可进行在线测试。

更多模型部署相关信息可参考：

https://openbayes.com/docs/serving/

至此，一个支持在线测试的中文文本纠错模型就训练+部署完成啦！

查看并运行完整教程，访问以下链接：

https://openbayes.com/console/open-tutorials/containers/YvkMjHySdef

快来试试你的中文纠错模型吧！

—— 完 ——

参考链接：

[1] https://www.51cto.com/article/715865.html

[2] https://arxiv.org/pdf/1910.1346

Command Palette

错字修改 | 布署 1 个中文文文本拼蟹纠错模型

中文文本错误 3 大障碍：拼写、语法、语义

1. 拼写错误：

2. 语法错误：

3. 语义错误：

BART：「采众长」的 SOTA 模型

教程详解：创建一个在线文本纠错 Demo

环境准备

模型下载

快速使用

模型部署

Serving 服务编写

测试

部署

Command Palette

错字修改 | 布署 1 个中文文文本拼蟹纠错模型

中文文本错误 3 大障碍：拼写、语法、语义

1. 拼写错误：

2. 语法错误：

3. 语义错误：

BART：「采众长」的 SOTA 模型

教程详解：创建一个在线文本纠错 Demo

环境准备

模型下载

快速使用

模型部署

Serving 服务编写

测试

部署

相关报道

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

极致轻量，画质不减！ERNIE-Image-Turbo：告别漫长等待，速度快到飞起；引入感知与认知双维指标：阿里多模态统一解析评估数据集 OmniParsingBench 上线

Free CPU 在线教程 | Hermes Agent 学会长期记忆？记忆增强插件 TencentDB Agent Memory 可将事实/偏好/任务状态等分开存储

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

在线教程丨指令遵循/推理/编码三合一，Mistral Medium 3.5 把 Coding Agent 搬上云端

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

小样本生物医学研究新突破，德国团队基于生成式 AI 模型实现数据增强，或减少 30-50% 实验动物用量

Command Palette

错字修改 | 布署 1 个中文文文本拼蟹纠错模型

中文文本错误 3 大障碍：拼写、语法、语义

1. 拼写错误：

2. 语法错误：

3. 语义错误：

BART：「采众长」的 SOTA 模型

教程详解：创建一个在线文本纠错 Demo

环境准备

模型下载

快速使用

模型部署

Serving 服务编写

测试

部署

相关报道

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

极致轻量，画质不减！ERNIE-Image-Turbo：告别漫长等待，速度快到飞起；引入感知与认知双维指标：阿里多模态统一解析评估数据集 OmniParsingBench 上线

Free CPU 在线教程 | Hermes Agent 学会长期记忆？记忆增强插件 TencentDB Agent Memory 可将事实/偏好/任务状态等分开存储

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

在线教程丨指令遵循/推理/编码三合一，Mistral Medium 3.5 把 Coding Agent 搬上云端

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

小样本生物医学研究新突破，德国团队基于生成式 AI 模型实现数据增强，或减少 30-50% 实验动物用量

相关报道

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

极致轻量，画质不减！ERNIE-Image-Turbo：告别漫长等待，速度快到飞起；引入感知与认知双维指标：阿里多模态统一解析评估数据集 OmniParsingBench 上线

Free CPU 在线教程 | Hermes Agent 学会长期记忆？记忆增强插件 TencentDB Agent Memory 可将事实/偏好/任务状态等分开存储

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

在线教程丨指令遵循/推理/编码三合一，Mistral Medium 3.5 把 Coding Agent 搬上云端

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

小样本生物医学研究新突破，德国团队基于生成式 AI 模型实现数据增强，或减少 30-50% 实验动物用量

相关报道

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

极致轻量，画质不减！ERNIE-Image-Turbo：告别漫长等待，速度快到飞起；引入感知与认知双维指标：阿里多模态统一解析评估数据集 OmniParsingBench 上线

Free CPU 在线教程 | Hermes Agent 学会长期记忆？记忆增强插件 TencentDB Agent Memory 可将事实/偏好/任务状态等分开存储