11일 전

아마르릭 뉴스 텍스트 분류 데이터셋

Israel Abebe Azime, Nebil Mohammed
아마르릭 뉴스 텍스트 분류 데이터셋
초록

자연어 처리(NLP) 분야에서 텍스트 분류는 우리가 해결하려는 주요 문제 중 하나이며, 언어 분석에서의 활용 가치는 의심의 여지가 없다. 아머릭어와 같은 저자원 언어에서는 레이블이 붙은 학습 데이터의 부족으로 인해 이러한 작업을 수행하는 것이 더욱 어려웠다. 이러한 데이터를 수집하고 레이블링하며 주석을 달아 유의미한 형태로 만들려는 노력을 통해, 초보 연구자들, 학교, 그리고 머신러닝 실무자들이 자신들의 언어에서 기존의 분류 모델을 구현하도록 유도할 수 있다. 본 짧은 논문에서는 6개의 클래스로 분류된 5만 건 이상의 뉴스 기사로 구성된 아머릭어 텍스트 분류 데이터셋을 소개하고자 한다. 본 데이터셋은 간단한 베이스라인 성능을 함께 제공함으로써, 관련 연구와 보다 높은 성능을 달성하기 위한 실험을 촉진하고자 한다.

아마르릭 뉴스 텍스트 분류 데이터셋 | 최신 연구 논문 | HyperAI초신경