
要約
自然言語処理(NLP)において、テキスト分類は我々が取り組む主要な課題の一つであり、言語分析におけるその応用は疑いなく重要である。アムハラ語をはじめとする低リソース言語では、ラベル付き学習データの不足がこうしたタスクの実施をさらに困難にしている。このようなデータの収集、ラベリング、アノテーション、および価値ある形での整備は、若手研究者や教育機関、機械学習実践者たちが自言語において既存の分類モデルを活用するよう促すものとなる。本稿では、6つのカテゴリに分類された5万件以上のニュース記事から構成されるアムハラ語テキスト分類データセットを紹介する。このデータセットは、容易なベースライン性能を併せて提供することで、さらなる研究の促進およびより高い性能を達成するための実験を奨励することを目的として公開される。