Command Palette
Search for a command to run...

要約
大規模マルチモーダルモデル(LMM)の光学文字認識(OCR)機能の評価に対する関心が高まっています。既存のベンチマークでは、LMMがテキスト認識において優れた性能を発揮していることが明らかになっていますが、テキスト位置特定、手書きコンテンツ抽出、論理的推論などの困難なタスクにおける能力はまだ十分に調査されていません。このギャップを埋めるため、私たちは OCRBench v2 を導入します。これは大規模な二言語テキスト中心のベンチマークで、現在最も包括的なタスクセット(以前の多場面ベンチマーク OCRBench と比較して4倍以上のタスク)、最広範なシナリオカバー(31種類の多様なシナリオ)、および徹底的な評価指標を備えており、10,000件の人間によって確認された質問応答ペアと難易度が高いサンプルの高い割合を含んでいます。さらに、1,500枚の人手による注釈画像からなるプライベートテストセットを作成しました。公開および非公開テストセットでの一貫した評価傾向は、OCRBench v2 の信頼性を証明しています。最先端のLMMを慎重にベンチマークした結果、ほとんどのLMMは50点未満(総合スコア100点)であり、頻繁に遭遇しないテキスト認識、細かい知覚、レイアウト知覚、複雑な要素解析、論理的推論という5つの制限に苦しんでいることがわかりました。プロジェクトウェブサイト: https://99franklin.github.io/ocrbench_v2/
コードリポジトリ
yuliang-liu/multimodalocr
公式
pytorch
GitHubで言及