HyperAIHyperAI

Command Palette

Search for a command to run...

PaddleOCR-VL: Multimodale Dokumentenanalyse

Date

vor 2 Monaten

Size

21.34 MB

Tags

License

Apache 2.0

Paper URL

2510.14528

1. Einführung in das Tutorial

Repository

PaddleOCR-VL ist ein hochmodernes und ressourcenschonendes Modell, das speziell für die Dokumentenanalyse entwickelt wurde. Kernkomponente ist PaddleOCR-VL-0.9B, ein kompaktes und leistungsstarkes visuelles Sprachmodell (VLM), das einen dynamischen visuellen Encoder im NaViT-Stil mit dem Sprachmodell ERNIE-4.5-0.3B kombiniert und so eine präzise Elementerkennung ermöglicht. Dieses innovative Modell unterstützt 109 Sprachen und zeichnet sich durch die Erkennung komplexer Elemente wie Text, Tabellen, Formeln und Diagramme bei extrem niedrigem Ressourcenverbrauch aus. Umfassende Evaluierungen anhand gängiger öffentlicher und interner Benchmarks belegen die Spitzenleistung von PaddleOCR-VL sowohl bei der seitenweisen Dokumentenanalyse als auch bei der Elementerkennung. Das Modell übertrifft bestehende Lösungen deutlich, ist anderen führenden visuellen Sprachmodellen ebenbürtig und bietet hohe Inferenzgeschwindigkeiten. Diese Vorteile machen es ideal für den praktischen Einsatz. Entsprechende Forschungsarbeiten sind verfügbar. PaddleOCR-VL: Steigerung der mehrsprachigen Dokumentenanalyse durch ein 0,9-B-Ultrakompaktes Bildverarbeitungs- und Sprachmodell .

Dieses Tutorial verwendet eine einzelne RTX 5090-Grafikkarte als Rechenressource.

2. Effektbeispiele

3. Bedienungsschritte

1. Starten Sie den Container

2. Nachdem Sie die Webseite aufgerufen haben, können Sie ein Gespräch mit dem Modell beginnen

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Anwendung 

 

Zitationsinformationen

@misc{cui2025paddleocrvlboostingmultilingualdocument,
      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model}, 
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2510.14528},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.14528}, 
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp