11 天前

阿姆哈拉语新闻文本分类数据集

Israel Abebe Azime, Nebil Mohammed
阿姆哈拉语新闻文本分类数据集
摘要

在自然语言处理(NLP)领域,文本分类是我们亟需解决的核心问题之一,其在语言分析中的应用价值毋庸置疑。然而,对于阿姆哈拉语等低资源语言而言,由于缺乏标注的训练数据,此类任务的开展面临较大挑战。系统性地收集、标注、注释并构建高质量的数据集,将有力激励初级研究人员、教育机构以及机器学习实践者在其母语中应用现有的分类模型。本文旨在介绍一个阿姆哈拉语文本分类数据集,该数据集包含超过5万篇新闻文章,并被划分为6个类别。为促进相关研究并推动更优性能的实验,我们同时提供了该数据集的简易基线性能结果,以便研究者参考与进一步优化。

阿姆哈拉语新闻文本分类数据集 | 最新论文 | HyperAI超神经