16일 전

우르두어 뉴스의 제목을 이용한 군집화

{Kamran Malik, Faisal Bukhari, Waheed Iqbal, Samia Khaliq}
초록

이 논문은 다양한 언론 기관에서 발행하는 우르두어 뉴스를 자동으로 군집화하기 위한 새로운 알고리즘을 제안하고 평가한다. 이 작업은 우르두어 언어를 위한 언어 처리 라이브러리가 존재하지 않는다는 점에서 도전적이다. 저자들의 실험용 데이터셋은 장, BBC 우르두어, 엑스프레스, 우르두포인트, 그리고 미국 방송국의 우르두어 채널(VOA)을 포함한 유명한 파키스탄 미디어 기관의 뉴스 기사로 구성되어 있다. 제안된 알고리즘은 뉴스 기사의 제목만을 사용하여 군집화를 수행한다. 저자들은 뉴스 제목이 뉴스 내용을 간략하게 요약하고 있음을 강조하며, 전체 기사 대신 제목만을 사용하는 것이 타당하다고 주장한다. 실험적 평가 결과, 제목을 이용한 유사 뉴스 식별에 있어 마이크로 평균 정밀도는 0.45, 매크로 평균 정밀도는 0.48을 각각 기록하였다.

우르두어 뉴스의 제목을 이용한 군집화 | 최신 연구 논문 | HyperAI초신경