摘要
本文提出并评估了一种新算法,用于自动对来自不同新闻机构的乌尔都语新闻进行聚类。该任务具有挑战性,因为目前尚无针对乌尔都语的自然语言处理工具库。作者的实验数据集包含来自巴基斯坦知名媒体机构的新闻,涵盖《贾恩报》(Jang)、英国广播公司乌尔都语频道(BBC Urdu)、《每日电讯报》乌尔都语版(Express)、UrduPoint以及美国之音乌尔都语频道(Voice of America Urdu, VOA)。所提出的算法仅基于新闻标题进行聚类。作者认为,新闻标题能够简洁地概括新闻内容,因此选择使用标题而非整篇新闻文本进行聚类。实验评估结果表明,该方法在利用标题识别相似新闻时,精确率(precision)的微观平均值(micro-average)为0.45,宏观平均值(macro-average)为0.48。