5ヶ月前

ドキュメント理解

アプローチ／フレームワーク

自然言語処理

コンピュータビジョン

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

概要

アラビア語文書のOCRは、連綿書体、多様なフォント、付加記号、右から左への書字方向など、言語特有の課題から、依然として困難なタスクである。近年のマルチモーダル大規模言語モデル（MLLM）は、リソース豊富な言語における文書理解の性能を大幅に向上させたが、アラビア語におけるその性能は依然として限定的である。本研究では、アラビア語文書OCRに特化して微調整された視覚言語モデル「Baseer」を提案する。合成文書と実世界文書を統合した大規模データセットを活用し、事前学習済みMLLMの一般視覚特徴を保持しつつ、デコーダーのみを用いた微調整戦略によりBaseerを学習した。さらに、アラビア語OCRシステムの厳密な評価を目的として、専門家による検証を経た高品質なベンチマーク「Misraj-DocOCR」を提供する。実験の結果、Baseerは既存のオープンソースおよび商用ソリューションを大きく上回り、文字誤り率（WER）0.25を達成し、アラビア語文書OCR分野における新たな最先端性能を確立した。本研究の結果は、汎用MLLMのドメイン特化型適応の有効性を示しており、アラビア語のような形態論的に豊かな言語における高精度OCRのための強力なベースラインを確立した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

5ヶ月前

ドキュメント理解

アプローチ／フレームワーク

自然言語処理

コンピュータビジョン

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

概要

アラビア語文書のOCRは、連綿書体、多様なフォント、付加記号、右から左への書字方向など、言語特有の課題から、依然として困難なタスクである。近年のマルチモーダル大規模言語モデル（MLLM）は、リソース豊富な言語における文書理解の性能を大幅に向上させたが、アラビア語におけるその性能は依然として限定的である。本研究では、アラビア語文書OCRに特化して微調整された視覚言語モデル「Baseer」を提案する。合成文書と実世界文書を統合した大規模データセットを活用し、事前学習済みMLLMの一般視覚特徴を保持しつつ、デコーダーのみを用いた微調整戦略によりBaseerを学習した。さらに、アラビア語OCRシステムの厳密な評価を目的として、専門家による検証を経た高品質なベンチマーク「Misraj-DocOCR」を提供する。実験の結果、Baseerは既存のオープンソースおよび商用ソリューションを大きく上回り、文字誤り率（WER）0.25を達成し、アラビア語文書OCR分野における新たな最先端性能を確立した。本研究の結果は、汎用MLLMのドメイン特化型適応の有効性を示しており、アラビア語のような形態論的に豊かな言語における高精度OCRのための強力なベースラインを確立した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Baseer：アラビア語文書からMarkdownへのOCR向け視覚言語モデル | 記事 | HyperAI超神経