Command Palette

Search for a command to run...

한 달 전

베이서: 아랍어 문서에서 마크다운으로의 비전-언어 모델 OCR

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

베이서: 아랍어 문서에서 마크다운으로의 비전-언어 모델 OCR

초록

아랍어 문서의 광학 문자 인식(OCR)은 그 언어의 연결 글자체, 다양한 폰트, 음성 기호, 그리고 오른쪽에서 왼쪽으로 읽는 방향성으로 인해 여전히 도전적인 과제로 남아 있다. 현대의 다모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 고자원 언어에 대한 문서 이해 능력이 크게 향상되었지만, 아랍어에 대한 성능은 여전히 제한적이다. 본 연구에서는 아랍어 문서 OCR에 특화하여 미세조정된 비전-언어 모델인 Baseer를 제안한다. Baseer는 합성 문서와 실제 문서를 결합한 대규모 데이터셋을 활용하여, 사전 학습된 MLLM을 일반적인 시각적 특성을 유지하면서 디코더 중심의 미세조정 전략으로 학습시켰다. 또한, 아랍어 OCR 시스템의 엄격한 평가를 위해 고품질로 구성되고 전문가 검증이 완료된 기준 데이터셋인 Misraj-DocOCR도 제시한다. 실험 결과, Baseer는 기존 오픈소스 및 상용 솔루션을 크게 능가하며, 문자 오류율(WER) 0.25를 달성하여 아랍어 문서 OCR 분야에서 새로운 최고 성능 기록을 수립했다. 본 연구 결과는 일반 목적의 MLLM을 특정 도메인에 맞게 적응시키는 데서 얻는 이점을 입증하며, 아랍어와 같이 형태학적으로 풍부한 언어에 대한 고정밀 OCR을 위한 강력한 기준을 제시한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
베이서: 아랍어 문서에서 마크다운으로의 비전-언어 모델 OCR | 연구 논문 | HyperAI초신경