HyperAIHyperAI
vor 12 Tagen

Clustering von urdu-sprachigen Nachrichten mithilfe von Überschriften

{Kamran Malik, Faisal Bukhari, Waheed Iqbal, Samia Khaliq}
Abstract

Diese Arbeit stellt einen neuen Algorithmus vor und evaluiert dessen Leistung bei der automatischen Clustering von urdu-sprachigen Nachrichten aus verschiedenen Nachrichtenagenturen. Die Aufgabe ist herausfordernd, da für die urdu-sprachige Textverarbeitung derzeit keine geeigneten Sprachverarbeitungsbibliotheken zur Verfügung stehen. Das experimentelle Datenset der Autoren besteht aus Nachrichten renommierter pakistanischer Medienhäuser, darunter Jang, BBC Urdu, Express, UrduPoint sowie Voice of America Urdu (VOA). Der vorgeschlagene Algorithmus nutzt ausschließlich Schlagzeilen zur Clustering-Aufgabe. Die Autoren argumentieren, dass Schlagzeilen eine präzise Zusammenfassung der Nachrichten bieten, was sie motiviert, statt des vollständigen Nachrichtentextes lediglich die Überschriften zu verwenden. Die experimentelle Evaluation zeigt für die Erkennung ähnlicher Nachrichten mittels Schlagzeilen Mikro- und Makro-Durchschnittswerte der Präzision von jeweils 0,45 und 0,48.

Clustering von urdu-sprachigen Nachrichten mithilfe von Überschriften | Neueste Forschungsarbeiten | HyperAI