NLPCC2016数据集与流行的新闻数据集不同,使用更多来自新浪微博的非正式文本。训练和测试数据由来自不同主题的微博组成,如金融、体育、娱乐等。该数据集为utf-8编码,可被用于中文分词任务
机构: 复旦大学
NLPCC2016 新闻数据集
AI Challenger 图像理解数据集
AI Challenger 是一个大规模的图像理解数据集,可以作为评估和改进各种算法的有效基准。此外,研究人员也可使用该数据集进行模型的预训练。 该数据集包括:• 3 个子集:人类关键点检测 (HKD)、大规模属性数据集 (LAD) 和图像中文说明 (ICC)。• 丰富的标注,弥…