Couplet-Dataset 对联数据集 大小 26 MB 发布地址 github.com 分类 文本检测、自然语言处理 许可协议 AGPL-3.0 发布日期 1 年前 标签 中文 数据集下载 aria2c 下载 磁力链 百度网盘 下载帮助 感谢您下载 Couplet-Dataset 对联数据集!本站基于知识共享许可协议,为国内用户提供公开数据集高速下载,仅用于科研与学术交流。获得数据集更新通知、下载过程发现问题、提供未引入数据集资源等,请关注公众号与我们沟通。 感谢您下载 Couplet-Dataset 对联数据集! 点击前往百度网盘下载页面 百度网盘下载提取码:v9h9本站基于知识共享许可协议,为国内用户提供公开数据集高速下载,仅用于科研与学术交流。关注公众号,获取数据集更新、人工智能相关的最新资讯 该对联数据集共包含 70 余万条对联数据,按字切分,并分为训练数据集、测试数据集以及一份词汇表。其中,训练数据集、测试数据集又分别分为上联和下联两部分。数据集来自于冯重朴_梨味斋散叶的博主的新浪博客,被广泛应用于 AI 对联数据集模型的训练。 Couplet.torrent 0 做种 0 下载 740 已完成文件名大小README.md840 BREADME.txt840 Bcouplet.tar.gz26 MB 相关数据集推荐 NLPCC2016 新闻数据集3 年前NLPCC2016数据集与流行的新闻数据集不同,使用更多来自新浪微博的非正式文本。训练和测试数据由来自不同主题的微博组成,如金融、体育、娱乐等。该数据集为utf-8编码,可被用于中文分词任务 icwb2-data 中文分词数据集3 年前icwb2-data数据集是由北京大学、香港城市大学、台湾CKIP, Academia Sinica及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中AS和CityU为繁体中文数据集,PK和MSR为简体中文数据集。 Common Voice 中文语音数据集3 年前Common Voice中文数据集是由Common Voice提供,包含288位测试者参与录音的MP3文件以及相对应的文本文件,总时长为12小时。参与录音的测试者由不同的口音、年龄、性别等差异,可被用于中文语音识别等任务的研究