GOT-OCR-2.0
これは、光学式文字認識 (OCR) の精度と効率の向上に重点を置いた、一般 OCR 理論に基づいたエンドツーエンドの統合モデルです。このプロジェクトは、StepFun、Megvii Technology、中国科学院大学、清華大学の研究チームによって共同で発表されました。関連する論文結果は「一般的な OCR 理論: 統合されたエンドツーエンド モデルによる OCR-2.0 に向けて」は、シーンテキストや文書認識などのさまざまなアプリケーションシナリオに適しています。統合アーキテクチャを採用しており、テキストの多様性と複雑さを効率的に処理できます。 GOT-OCR 2.0 は、シーン テキスト認識をサポートするだけでなく、複数ページのドキュメントも処理できるため、OCR 分野にさらなる柔軟性をもたらします。
GOT-OCR-2.0
特徴は次のとおりです。