Handgeschriebener Arabischer Datensatz Von Muharaf
Datum
Größe
Veröffentlichungs-URL
Lizenz
CC BY-NC-SA 3.0
Kategorien
* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
Der Muharaf-Datensatz ist ein maschineller Lerndatensatz mit Schwerpunkt auf der Erkennung handschriftlicher arabischer Schriften, der von Mehreen Saeed et al. erstellt wurde. im Jahr 2024. Die entsprechenden Ergebnisse der Studie lauten:Muharaf: Handschriftliche arabische Manuskripte – Datensatz zur Erkennung von kursivem Text", wurde von NeurIPS 24 angenommen. Dieser Datensatz enthält über 1,6.000 Bilder historischer handschriftlicher Seiten, die von Archiv-Arabisch-Experten transkribiert wurden. Jedes Dokumentbild wird von den räumlichen Polygonkoordinaten seiner Textzeilen und Informationen zu grundlegenden Seitenelementen begleitet. Der Muharaf-Datensatz wurde erstellt, um den Stand der Technik im Bereich der Handschrifterkennung (HTR) nicht nur für arabische Manuskripte, sondern auch für zusammenhängende Texte voranzubringen.
Der Datensatz enthält eine große Bandbreite an Schreibstilen und eine große Bandbreite an Dokumenttypen, darunter persönliche Briefe, Tagebücher, Notizen, Gedichte, Kirchenbücher und juristische Korrespondenz. In der Forschungsarbeit beschreiben die Autoren den Datenerfassungsprozess, die wesentlichen Merkmale und Statistiken des Datensatzes und liefern vorläufige Basisergebnisse, die durch das Training faltender neuronaler Netzwerke mit diesen Daten erzielt wurden.
Der Muharaf-Datensatz ist in zwei Teile unterteilt: Der öffentliche Teil enthält 1.216 Bilder und wird unter der Lizenz CC BY-NC-SA 4.0 verbreitet; Der eingeschränkte Teil enthält 428 Bilder, wird unter einer proprietären Lizenz vertrieben und kann nur heruntergeladen werden, indem Sie Carlos Younes am Phoenix Center for Lebanese Studies kontaktieren. Dieser Teil der Daten darf nur für Forschungszwecke verwendet werden und eine Weitergabe ist nicht gestattet. Darüber hinaus wurde der Muharaf-Datensatz mit der Annotationssoftware ScribeArabic erstellt, und das Handbuch für diese Software kann Benutzern helfen, ihre Funktionsweise zu verstehen. Die Bilddateien im Datensatz können zusammen mit den entsprechenden Anmerkungen, Transkriptionen und Tags mit dem PAGE-XML-Viewer angezeigt werden.
