HyperAI

Résumé

Ce papier présente HunyuanOCR, un modèle vision-langage (VLM) open-source, léger (1 milliard de paramètres) et destiné à des applications commerciales, spécifiquement dédié aux tâches de reconnaissance optique de caractères (OCR). Son architecture repose sur un Vision Transformer (ViT) natif combiné à un petit modèle linguistique (LLM), reliés par un adaptateur MLP. HunyuanOCR démontre des performances supérieures, surpassant à la fois les APIs commerciales, les pipelines traditionnels ainsi que des modèles plus volumineux (par exemple, Qwen3-VL-4B). En particulier, il bat les solutions publiques actuelles dans les tâches de perception (Text Spotting, Parsing) et excelle dans les tâches sémantiques (Extraction d’information, Traduction texte-image), obtenant la première place au défi ICDAR 2025 DIMT (catégorie Modèles légers). Par ailleurs, il atteint des résultats de pointe (SOTA) sur OCRBench parmi les VLM ayant moins de 3 milliards de paramètres.HunyuanOCR marque des avancées significatives sur trois axes clés :1) Unification de la polyvalence et de l’efficacité : Nous avons intégré de manière complète les fonctionnalités essentielles — spotting, parsing, extraction d’information (IE), VQA, traduction — dans un cadre léger. Cette approche surmonte les limites des modèles spécialisés « OCR experts » trop étroits, ainsi que celles des VLM généraux peu efficaces.2) Architecture entièrement end-to-end simplifiée : En adoptant une architecture purement end-to-end, nous éliminons tout dépendance vis-à-vis de modules de prétraitement (par exemple, analyse de mise en page). Cette solution résout fondamentalement le problème de propagation des erreurs fréquent dans les pipelines traditionnels, tout en simplifiant considérablement le déploiement du système.3) Stratégies data-driven et d’apprentissage par renforcement (RL) : Nous confirmons l’importance cruciale des données de haute qualité, et, pour la première fois dans l’industrie, démontrons que l’application de stratégies d’apprentissage par renforcement (RL) permet d’obtenir des gains significatifs de performance sur les tâches OCR.HunyuanOCR est officiellement open-source sur HuggingFace. Nous proposons également une solution de déploiement hautement performante basée sur vLLM, positionnant ainsi son efficacité en production parmi les meilleures. Nous espérons que ce modèle contribuera à l’avancée de la recherche de pointe et offrira une base solide pour les applications industrielles.

Résumé

Tencent Hunyuan Vision Team Jie Jiang Linus Han Hu Chengquan Zhang Pengyuan Lyu Xingyu Wan Gengluo Li Shangpin Peng Weinong Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Tencent Hunyuan Vision Team Jie Jiang Linus Han Hu Chengquan Zhang Pengyuan Lyu Xingyu Wan Gengluo Li Shangpin Peng Weinong Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Tencent Hunyuan Vision Team Jie Jiang Linus Han Hu Chengquan Zhang Pengyuan Lyu Xingyu Wan Gengluo Li Shangpin Peng Weinong Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Rapport technique HunyuanOCR

Tencent Hunyuan Vision Team Jie Jiang Linus Han Hu Chengquan Zhang Pengyuan Lyu Xingyu Wan Gengluo Li Shangpin Peng Weinong Wang16 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Rapport technique HunyuanOCR

Tencent Hunyuan Vision Team Jie Jiang Linus Han Hu Chengquan Zhang Pengyuan Lyu Xingyu Wan Gengluo Li Shangpin Peng Weinong Wang16 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Rapport technique HunyuanOCR

Tencent Hunyuan Vision Team Jie Jiang Linus Han Hu Chengquan Zhang Pengyuan Lyu Xingyu Wan Gengluo Li Shangpin Peng Weinong Wang16 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Tencent Hunyuan Vision Team Jie Jiang Linus Han Hu Chengquan Zhang Pengyuan Lyu Xingyu Wan Gengluo Li Shangpin Peng Weinong Wang

Tencent Hunyuan Vision Team Jie Jiang Linus Han Hu Chengquan Zhang Pengyuan Lyu Xingyu Wan Gengluo Li Shangpin Peng Weinong Wang

Tencent Hunyuan Vision Team Jie Jiang Linus Han Hu Chengquan Zhang Pengyuan Lyu Xingyu Wan Gengluo Li Shangpin Peng Weinong Wang