4ヶ月前

OCRBench v2: 大規模マルチモーダルモデルの視覚的テキスト位置特定と推論評価のための改良されたベンチマーク

Fu Ling ; Kuang Zhebin ; Song Jiajun ; Huang Mingxin ; Yang Biao ; Li Yuzhe ; Zhu Linghao ; Luo Qidi ; Wang Xinyu ; Lu

要約

大規模マルチモーダルモデル（LMM）の光学文字認識（OCR）機能の評価に対する関心が高まっています。既存のベンチマークでは、LMMがテキスト認識において優れた性能を発揮していることが明らかになっていますが、テキスト位置特定、手書きコンテンツ抽出、論理的推論などの困難なタスクにおける能力はまだ十分に調査されていません。このギャップを埋めるため、私たちは OCRBench v2 を導入します。これは大規模な二言語テキスト中心のベンチマークで、現在最も包括的なタスクセット（以前の多場面ベンチマーク OCRBench と比較して4倍以上のタスク）、最広範なシナリオカバー（31種類の多様なシナリオ）、および徹底的な評価指標を備えており、10,000件の人間によって確認された質問応答ペアと難易度が高いサンプルの高い割合を含んでいます。さらに、1,500枚の人手による注釈画像からなるプライベートテストセットを作成しました。公開および非公開テストセットでの一貫した評価傾向は、OCRBench v2 の信頼性を証明しています。最先端のLMMを慎重にベンチマークした結果、ほとんどのLMMは50点未満（総合スコア100点）であり、頻繁に遭遇しないテキスト認識、細かい知覚、レイアウト知覚、複雑な要素解析、論理的推論という5つの制限に苦しんでいることがわかりました。プロジェクトウェブサイト: https://99franklin.github.io/ocrbench_v2/

コードリポジトリ

yuliang-liu/multimodalocr

公式

pytorch

GitHubで言及

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

OCRBench v2: 大規模マルチモーダルモデルの視覚的テキスト位置特定と推論評価のための改良されたベンチマーク

Fu Ling ; Kuang Zhebin ; Song Jiajun ; Huang Mingxin ; Yang Biao ; Li Yuzhe ; Zhu Linghao ; Luo Qidi ; Wang Xinyu ; Lu15 more

要約

コードリポジトリ

AI で AI を構築

Hyper Newsletters

Fu Ling ; Kuang Zhebin ; Song Jiajun ; Huang Mingxin ; Yang Biao ; Li Yuzhe ; Zhu Linghao ; Luo Qidi ; Wang Xinyu ; Lu