1. Einführung in das Tutorial

PaddleOCR-VL ist ein hochmodernes und ressourcenschonendes Modell, das speziell für die Dokumentenanalyse entwickelt wurde. Kernkomponente ist PaddleOCR-VL-0.9B, ein kompaktes und leistungsstarkes visuelles Sprachmodell (VLM), das einen dynamischen visuellen Encoder im NaViT-Stil mit dem Sprachmodell ERNIE-4.5-0.3B kombiniert und so eine präzise Elementerkennung ermöglicht. Dieses innovative Modell unterstützt 109 Sprachen und zeichnet sich durch die Erkennung komplexer Elemente wie Text, Tabellen, Formeln und Diagramme bei extrem niedrigem Ressourcenverbrauch aus. Umfassende Evaluierungen anhand gängiger öffentlicher und interner Benchmarks belegen die Spitzenleistung von PaddleOCR-VL sowohl bei der seitenweisen Dokumentenanalyse als auch bei der Elementerkennung. Das Modell übertrifft bestehende Lösungen deutlich, ist anderen führenden visuellen Sprachmodellen ebenbürtig und bietet hohe Inferenzgeschwindigkeiten. Diese Vorteile machen es ideal für den praktischen Einsatz. Entsprechende Forschungsarbeiten sind verfügbar. PaddleOCR-VL: Steigerung der mehrsprachigen Dokumentenanalyse durch ein 0,9-B-Ultrakompaktes Bildverarbeitungs- und Sprachmodell .

Dieses Tutorial verwendet eine einzelne RTX 5090-Grafikkarte als Rechenressource.

3. Bedienungsschritte

1. Starten Sie den Container

2. Nachdem Sie die Webseite aufgerufen haben, können Sie ein Gespräch mit dem Modell beginnen

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Anwendung

Zitationsinformationen

@misc{cui2025paddleocrvlboostingmultilingualdocument, title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model}, author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma}, year={2025}, eprint={2510.14528}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2510.14528}, }

HyperAI

Dieses Notebook ausführen

Datum

vor 3 Monaten

Größe

21.34 MB

1. Einführung in das Tutorial

Dieses Tutorial verwendet eine einzelne RTX 5090-Grafikkarte als Rechenressource.

2. Effektbeispiele

3. Bedienungsschritte

1. Starten Sie den Container

2. Nachdem Sie die Webseite aufgerufen haben, können Sie ein Gespräch mit dem Modell beginnen

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Anwendung

Zitationsinformationen

@misc{cui2025paddleocrvlboostingmultilingualdocument,
      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model}, 
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2510.14528},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.14528}, 
}

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Verwandt Notebooks

MonkeyOCR: Dokumentenanalyse Basierend Auf Dem Struktur-Erkennungs-Relations-Dreifachparadigma

vor 3 Monaten

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

vor 2 Monaten

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

vor 3 Monaten

HunyuanWorld-Mirror: Ein 3D-Weltgenerierungsmodell

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Dieses Notebook ausführen

Datum

vor 3 Monaten

Größe

21.34 MB

1. Einführung in das Tutorial

Dieses Tutorial verwendet eine einzelne RTX 5090-Grafikkarte als Rechenressource.

2. Effektbeispiele

3. Bedienungsschritte

1. Starten Sie den Container

2. Nachdem Sie die Webseite aufgerufen haben, können Sie ein Gespräch mit dem Modell beginnen

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Anwendung

Zitationsinformationen

@misc{cui2025paddleocrvlboostingmultilingualdocument,
      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model}, 
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2510.14528},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.14528}, 
}

Verwandt Notebooks

MonkeyOCR: Dokumentenanalyse Basierend Auf Dem Struktur-Erkennungs-Relations-Dreifachparadigma

vor 3 Monaten

PaddleOCR-VL-1.5: Lokale OCR Basierend Auf vLLM

vor 9 Stunden

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

vor 2 Monaten

OCRFlux-3B: Intelligentes Texterkennungs-Toolkit

vor 3 Monaten

DiagGym Diagnostik-Agent

vor 15 Tagen

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

vor 2 Monaten

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

vor 2 Monaten

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

vor 3 Monaten

HunyuanWorld-Mirror: Ein 3D-Weltgenerierungsmodell

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

PaddleOCR-VL: Multimodale Dokumentenanalyse

1. Einführung in das Tutorial

2. Effektbeispiele

3. Bedienungsschritte

1. Starten Sie den Container

2. Nachdem Sie die Webseite aufgerufen haben, können Sie ein Gespräch mit dem Modell beginnen

Zitationsinformationen

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

PaddleOCR-VL: Multimodale Dokumentenanalyse

1. Einführung in das Tutorial

2. Effektbeispiele

3. Bedienungsschritte

1. Starten Sie den Container

2. Nachdem Sie die Webseite aufgerufen haben, können Sie ein Gespräch mit dem Modell beginnen

Zitationsinformationen

Verwandt Notebooks

MonkeyOCR: Dokumentenanalyse Basierend Auf Dem Struktur-Erkennungs-Relations-Dreifachparadigma

PaddleOCR-VL-1.5: Lokale OCR Basierend Auf vLLM

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

OCRFlux-3B: Intelligentes Texterkennungs-Toolkit

DiagGym Diagnostik-Agent

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

HunyuanWorld-Mirror: Ein 3D-Weltgenerierungsmodell

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

PaddleOCR-VL: Multimodale Dokumentenanalyse

1. Einführung in das Tutorial

2. Effektbeispiele

3. Bedienungsschritte

1. Starten Sie den Container

2. Nachdem Sie die Webseite aufgerufen haben, können Sie ein Gespräch mit dem Modell beginnen

Zitationsinformationen

Verwandt Notebooks

MonkeyOCR: Dokumentenanalyse Basierend Auf Dem Struktur-Erkennungs-Relations-Dreifachparadigma

PaddleOCR-VL-1.5: Lokale OCR Basierend Auf vLLM

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

OCRFlux-3B: Intelligentes Texterkennungs-Toolkit

DiagGym Diagnostik-Agent

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

HunyuanWorld-Mirror: Ein 3D-Weltgenerierungsmodell

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Notebooks

MonkeyOCR: Dokumentenanalyse Basierend Auf Dem Struktur-Erkennungs-Relations-Dreifachparadigma

PaddleOCR-VL-1.5: Lokale OCR Basierend Auf vLLM

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

OCRFlux-3B: Intelligentes Texterkennungs-Toolkit

DiagGym Diagnostik-Agent

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

HunyuanWorld-Mirror: Ein 3D-Weltgenerierungsmodell

Verwandt Notebooks

MonkeyOCR: Dokumentenanalyse Basierend Auf Dem Struktur-Erkennungs-Relations-Dreifachparadigma

PaddleOCR-VL-1.5: Lokale OCR Basierend Auf vLLM

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

OCRFlux-3B: Intelligentes Texterkennungs-Toolkit

DiagGym Diagnostik-Agent

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

HunyuanWorld-Mirror: Ein 3D-Weltgenerierungsmodell