HyperAIHyperAI

Command Palette

Search for a command to run...

Handgeschriebener Arabischer Datensatz Von Muharaf

Date

vor einem Jahr

Size

9.83 GB

Publish URL

github.com

Paper URL

arxiv.org

License

CC BY-NC-SA 3.0

Der Muharaf-Datensatz ist ein maschineller Lerndatensatz mit Schwerpunkt auf der Erkennung handschriftlicher arabischer Schriften, der von Mehreen Saeed et al. erstellt wurde. im Jahr 2024. Die entsprechenden Ergebnisse der Studie lauten:Muharaf: Handschriftliche arabische Manuskripte – Datensatz zur Erkennung von kursivem Text", wurde von NeurIPS 24 angenommen. Dieser Datensatz enthält über 1,6.000 Bilder historischer handschriftlicher Seiten, die von Archiv-Arabisch-Experten transkribiert wurden. Jedes Dokumentbild wird von den räumlichen Polygonkoordinaten seiner Textzeilen und Informationen zu grundlegenden Seitenelementen begleitet. Der Muharaf-Datensatz wurde erstellt, um den Stand der Technik im Bereich der Handschrifterkennung (HTR) nicht nur für arabische Manuskripte, sondern auch für zusammenhängende Texte voranzubringen.

Der Datensatz enthält eine große Bandbreite an Schreibstilen und eine große Bandbreite an Dokumenttypen, darunter persönliche Briefe, Tagebücher, Notizen, Gedichte, Kirchenbücher und juristische Korrespondenz. In der Forschungsarbeit beschreiben die Autoren den Datenerfassungsprozess, die wesentlichen Merkmale und Statistiken des Datensatzes und liefern vorläufige Basisergebnisse, die durch das Training faltender neuronaler Netzwerke mit diesen Daten erzielt wurden.

Der Muharaf-Datensatz ist in zwei Teile unterteilt: Der öffentliche Teil enthält 1.216 Bilder und wird unter der Lizenz CC BY-NC-SA 4.0 verbreitet; Der eingeschränkte Teil enthält 428 Bilder, wird unter einer proprietären Lizenz vertrieben und kann nur heruntergeladen werden, indem Sie Carlos Younes am Phoenix Center for Lebanese Studies kontaktieren. Dieser Teil der Daten darf nur für Forschungszwecke verwendet werden und eine Weitergabe ist nicht gestattet. Darüber hinaus wurde der Muharaf-Datensatz mit der Annotationssoftware ScribeArabic erstellt, und das Handbuch für diese Software kann Benutzern helfen, ihre Funktionsweise zu verstehen. Die Bilddateien im Datensatz können zusammen mit den entsprechenden Anmerkungen, Transkriptionen und Tags mit dem PAGE-XML-Viewer angezeigt werden.

Screenshot
Muharaf.torrent
Seeding 1Downloading 0Completed 148Total Downloads 280
  • Muharaf/
    • README.md
      2.27 KB
    • README.txt
      4.54 KB
      • data/
        • 11492215.zip
          9.83 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Handgeschriebener Arabischer Datensatz Von Muharaf | Datasets | HyperAI