SogouCS数据集来源于搜狐新闻2012年6月-7月期间国内、国际、体育、社会、娱乐等18个频道的新闻数据,包括url和正文信息
机构: Sogou
SogouCS 新闻数据集
Text Classification Datasets 文本分类数据集
Text Classification Dataset 是一个文本分类数据集,其包含 8 个可用于文本分类的子数据集,样本大小从 120K 到 3.6M 不等,问题范围从 2 级到 14 级。 该数据集的来源主要有 DBPedia、Amazon、Yelp、Yahoo、Sogou …