Qwen3-VL : Découvrez le pouvoir des modèles vision-langage pour extraire intelligemment l’information des documents
Les modèles de langage visuel (VLMs) représentent une avancée majeure dans l’intelligence artificielle, permettant d’analyser à la fois des images et du texte pour générer des réponses textuelles. Parmi ces modèles, Qwen3-VL, récemment lancé par Alibaba, s’impose comme une solution puissante pour l’extraction d’informations à partir de documents et d’images. Ce modèle, disponible en plusieurs versions (4B, 8B, 30B, 235B), excelle dans des tâches complexes où les systèmes traditionnels basés sur l’OCR (reconnaissance optique de caractères) échouent. Contrairement aux approches classiques combinant OCR et modèles de langage (LLM), les VLMs traitent directement les images, préservant ainsi les informations visuelles essentielles comme la position relative du texte, les cases à cocher, les mises en forme ou les graphiques. Par exemple, dans un document avec des cases cochées, un système OCR + LLM ne peut pas déterminer quelle ligne de texte correspond à une case cochée, tandis qu’un VLM comme Qwen3-VL comprend instantanément cette relation spatiale. Dans un test, Qwen3-VL a correctement identifié que seuls les documents 1 et 3 étaient cochés, démontrant sa capacité à comprendre le contexte visuel. Le modèle peut également être utilisé pour l’OCR avancé. En lui envoyant une image d’un document officiel norvégien (plan d’urbanisme), Qwen3-VL a extrait fidèlement tout le texte, y compris des détails comme la date (23.01.2014), l’adresse (Camilla Colletts vei 15), l’échelle (1:500) et le système de coordonnées, avec une précision remarquable. L’outil a même réussi à interpréter le numéro de lot (Gnr) à partir de l’adresse, même si le champ était vide, montrant une capacité d’inférence logique. Lorsqu’on a demandé d’extraire le Bnr (numéro de bâtiment), absent du document, le modèle a correctement renvoyé None, indiquant sa capacité à reconnaître l’absence d’information. Ces performances s’accompagnent toutefois de limites. Les VLMs peuvent parfois omettre des parties du texte, surtout dans des documents complexes ou à haute résolution, ce qui constitue un risque critique pour les applications exigeantes. De plus, leur consommation de ressources est élevée : même le modèle 4B nécessite une puissance de calcul importante, et les images de grande taille (ex. 2048×2048) posent des problèmes de mémoire, limitant leur utilisation en environnement local. En résumé, les VLMs comme Qwen3-VL offrent une solution bien supérieure à l’OCR classique pour l’analyse de documents, en intégrant le contexte visuel et en permettant des tâches d’extraction d’information structurée. Leur adoption s’impose dans des domaines comme l’archivage, la gestion documentaire ou l’automatisation de processus. Cependant, ils doivent être utilisés avec prudence, en tenant compte de leurs limites en termes de fiabilité partielle et de contraintes matérielles. À l’avenir, avec des améliorations continues, les modèles multimodaux devraient devenir des outils incontournables dans l’IA appliquée.
