Command Palette
Search for a command to run...
Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

摘要
阿拉伯语文档的光学字符识别(OCR)仍是一项具有挑战性的任务,主要原因在于该语言的连笔书写风格、字体多样、带变音符号以及从右向左的书写方向。尽管现代多模态大语言模型(MLLMs)在高资源语言的文档理解方面取得了显著进展,但其在阿拉伯语上的表现仍然有限。在本研究中,我们提出Baseer,一种专为阿拉伯语文档OCR任务进行微调的视觉-语言模型。通过结合大量合成文档与真实世界文档的超大规模数据集,Baseer采用仅解码器结构的微调策略,在保留预训练MLLM通用视觉特征的同时,对模型进行针对性适配。此外,我们还构建了Misraj-DocOCR——一个高质量、经专家验证的基准数据集,旨在对阿拉伯语OCR系统进行严格评估。实验结果表明,Baseer显著优于现有的开源及商业解决方案,在词错误率(WER)上达到0.25,刷新了阿拉伯语文档OCR领域的最新技术水平。本研究结果凸显了将通用多模态大模型进行领域特定适配的重要优势,并为像阿拉伯语这样形态丰富的语言实现了高精度OCR奠定了坚实基准。