
Abstract
Diese Arbeit stellt HunyuanOCR vor, ein kommerziell einsetzbares, quelloffenes und leichtgewichtiges (1 Milliarde Parameter) Vision-Language-Modell (VLM), das speziell für OCR-Aufgaben entwickelt wurde. Die Architektur besteht aus einem Native Vision Transformer (ViT) und einem leichtgewichtigen LLM, die über einen MLP-Adapter verbunden sind. HunyuanOCR zeigt herausragende Leistungsfähigkeit und übertrifft kommerzielle APIs, traditionelle Pipeline-Architekturen sowie größere Modelle (z. B. Qwen3-VL-4B). Insbesondere erreicht es bessere Ergebnisse als aktuelle öffentliche Lösungen bei Wahrnehmungsaufgaben (Text Spotting, Parsing) und überzeugt bei semantischen Aufgaben (Information Extraction, Text-Bild-Übersetzung), wobei es den ersten Platz im ICDAR 2025 DIMT Challenge (Small Model Track) belegt. Zudem erzielt HunyuanOCR state-of-the-art (SOTA)-Ergebnisse auf OCRBench unter allen VLMs mit weniger als 3 Milliarden Parametern.HunyuanOCR erreicht bahnbrechende Fortschritte in drei zentralen Aspekten:1) Integration von Vielseitigkeit und Effizienz: Wir implementieren umfassende Unterstützung für zentrale Funktionalitäten – darunter Spotting, Parsing, Information Extraction (IE), VQA und Übersetzung – innerhalb eines leichtgewichtigen Rahmens. Dies behebt die Beschränkungen enger „OCR-Spezialmodelle“ sowie die ineffizienten „Allzweck-VLMs“.2) Verfeinerte End-to-End-Architektur: Durch die Anwendung eines reinen End-to-End-Paradigmas entfällt der Bedarf an vorverarbeitenden Modulen (z. B. Layout-Analyse). Dadurch wird das typische Problem der Fehlerfortpflanzung in traditionellen Pipelines grundlegend gelöst und die Systembereitstellung erheblich vereinfacht.3) Datengetriebene Ansätze und RL-Strategien: Wir bestätigen die entscheidende Rolle hochwertiger Daten und demonstrieren erstmals in der Industrie, dass Reinforcement-Learning (RL)-Strategien signifikante Leistungssteigerungen bei OCR-Aufgaben ermöglichen.HunyuanOCR wurde offiziell auf HuggingFace veröffentlicht. Zudem stellen wir eine hochleistungsfähige Bereitstellungslösung basierend auf vLLM bereit, die die Produktivität im Einsatz auf höchstem Niveau positioniert. Wir hoffen, dass dieses Modell die Forschung an der Grenze des Wissens voranbringt und eine solide Grundlage für industrielle Anwendungen schafft.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.