HyperAI초신경

무하라프(Muharaf) 필기 아랍어 데이터세트

날짜

6달 전

크기

9.83 GB

발행 주소

github.com

라이선스

CC BY-NC-SA 3.0

* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.

무하라프 데이터 세트는 메흐린 사이드 등이 만든 손으로 쓴 아랍어 인식에 초점을 맞춘 머신 러닝 데이터 세트입니다. 2024년에 관련 논문 결과는 "무하라프: 필기체 텍스트 인식을 위한 아랍어 필기 데이터 세트", NeurIPS 24에 승인되었습니다. 이 데이터셋은 아랍어 기록 보관 전문가들이 필사한 1.6만 개 이상의 역사적 필사 페이지 이미지를 포함합니다. 각 문서 이미지에는 텍스트 줄의 공간 폴리곤 좌표와 기본 페이지 요소에 대한 정보가 함께 제공됩니다. 무하라프 데이터셋은 아랍어 사본뿐만 아니라 연결된 텍스트에 대한 필사 텍스트 인식(HTR) 분야의 최첨단 기술을 발전시키기 위해 구축되었습니다.

이 데이터 세트에는 개인 서신, 일기, 메모, 시, 교회 기록, 법률 서신을 포함한 다양한 글쓰기 스타일과 광범위한 문서 유형이 포함되어 있습니다. 연구 논문에서 저자는 데이터 수집 프로세스, 데이터 세트의 주요 특징과 통계를 설명하고, 이 데이터를 사용하여 합성 신경망을 훈련하여 얻은 예비 기준 결과를 제공합니다.

무하라프 데이터 세트는 두 부분으로 나뉩니다. 공개 부분에는 1,216개의 이미지가 포함되어 있으며 CC BY-NC-SA 4.0 라이선스에 따라 배포됩니다. 제한된 부분에는 428개의 이미지가 포함되어 있으며 독점 라이선스에 따라 배포되며 레바논 연구 피닉스 센터의 카를로스 유네스에게 연락해야만 다운로드할 수 있습니다. 이 부분의 데이터는 연구 목적으로만 사용할 수 있으며 재배포는 허용되지 않습니다. 또한, 무하라프 데이터 세트는 ScribeArabic 주석 소프트웨어를 사용하여 만들어졌으며, 이 소프트웨어의 매뉴얼은 사용자가 소프트웨어의 작동 방식을 이해하는 데 도움이 될 수 있습니다. 데이터 세트의 이미지 파일은 해당 주석, 전사본, 태그와 함께 PAGE-XML 뷰어를 사용하여 볼 수 있습니다.

스크린샷
Muharaf.torrent
시딩 1다운로드 중 1완료됨 57총 다운로드 횟수 80
  • Muharaf/
    • README.md
      2.27 KB
    • README.txt
      4.54 KB
      • data/
        • 11492215.zip
          9.83 GB