HyperAIHyperAI

Command Palette

Search for a command to run...

Baidu Passe À l'action ! Son Modèle OCR, PaddleOCR-VL, s'affranchit Des Limitations Des Méthodes De Traitement Par Pipeline Et De Bout En Bout ; l'ensemble De Données Facial Emotion Recognition Permet À l'IA De Comprendre Les Expressions faciales.

Featured Image

La complexité croissante des documents modernes représente un défi de taille pour les technologies d'analyse syntaxique : ces documents contiennent souvent des textes longs, des graphiques complexes, des formules techniques, plusieurs langues et peuvent présenter des mises en page irrégulières. Par conséquent, une analyse syntaxique efficace et précise est devenue une technologie clé indispensable.

Les recherches actuelles dans le domaine de l'analyse syntaxique de documents suivent principalement deux voies techniques :Une approche consiste à utiliser une méthode de pipeline basée sur un modèle expert modulaire.Bien que ces méthodes fonctionnent de manière stable sur des tâches spécifiques, leurs inconvénients deviennent de plus en plus évidents : l’architecture du système est complexe, les erreurs s’accumulent tout au long des étapes de traitement et leurs capacités ont une limite supérieure inhérente lors du traitement de documents très complexes.QueDeuxièmement, une approche de bout en bout basée sur un modèle multimodal de grande taille.Conçu pour simplifier les flux de travail et optimiser globalement les processus, ce système rencontre souvent des difficultés en pratique, comme le désordre du texte et la génération de contenu « illusoire » lors du traitement de documents longs ou de mises en page complexes. De plus, le coût de calcul considérable lié au traitement de séquences longues limite son déploiement dans des situations réelles.

En se basant sur ces défis du monde réelBaidu a lancé PaddleOCR-VL, un modèle d'analyse de documents performant et économe en ressources basé sur un modèle de langage visuel.Le composant principal de ce modèle est le modèle de langage visuel compact et performant PaddleOCR-VL-0.9B, qui intègre un encodeur visuel à résolution dynamique de type NaViT au modèle de langage ERNIE-4.5-0.3B, permettant une reconnaissance précise des éléments. Ce modèle innovant prend en charge efficacement 109 langues et excelle dans la reconnaissance d'éléments complexes tels que le texte, les tableaux, les formules et les graphiques, tout en conservant une consommation de ressources extrêmement faible.

Par le biais d'une évaluation complètePaddleOCR-VL a atteint des performances de pointe (SOTA) dans les tâches d'analyse de documents au niveau de la page et de reconnaissance au niveau des éléments.Il démontre une forte compétitivité par rapport aux meilleurs modèles de langage visuel, ce qui le rend plus adapté au déploiement et à l'application dans des scénarios réels.

Le site web d'HyperAI propose désormais « PaddleOCR-VL : Analyse multimodale de documents », alors n'hésitez pas à l'essayer !

Utilisation en ligne :https://go.hyper.ai/3OjbB

Aperçu rapide des mises à jour du site web officiel d'hyper.ai du 17 au 21 novembre :

* Jeux de données publics de haute qualité : 6

* Sélection de tutoriels de haute qualité : 3

* Articles recommandés cette semaine : 5

* Interprétation des articles communautaires : 5 articles

* Entrées d'encyclopédie populaire : 5

Principales conférences avec des dates limites en décembre : 2

Visitez le site officiel :hyper.ai

Ensembles de données publiques sélectionnés

1. Ensemble de données de référence HumanSense

HumanSense Benchmark est un jeu de données de référence pour l'évaluation de la perception humaine, publié par l'Université Jiaotong de Xi'an en collaboration avec Ant Group. Il vise à mesurer de manière exhaustive les capacités d'interaction en situation réelle des modèles, grâce à la fusion d'informations multimodales telles que la vision, l'audio et le texte.

Utilisation directe :https://go.hyper.ai/9drzT

2. Ensemble de données d'évaluation de l'édition d'images EditReward-Bench

EditReward-Bench est un banc d'essai d'évaluation systématique des modèles de récompense pour l'édition d'images. Développé conjointement par l'Université des sciences et technologies de Chine, l'Institut d'automatisation de l'Académie chinoise des sciences et l'Académie d'intelligence artificielle de Pékin, il vise à évaluer de manière exhaustive la capacité de discrimination des modèles de récompense selon trois dimensions principales : le respect des consignes, le maintien de la cohérence et la qualité globale. L'ensemble de données comprend 3 072 points de comparaison de préférences annotés par des experts, couvrant ainsi un large éventail de scénarios d'applications, des plus courants aux plus complexes.

Utilisation directe :https://go.hyper.ai/OEVRn

3. Ensemble de données de référence pour l'évaluation multimodale UNO-Bench

UNO-Bench, développé par l'équipe LongCat de Meituan, est le premier banc d'essai unifié d'évaluation multimodale conçu pour évaluer efficacement les capacités de compréhension unimodales et multimodales. L'ensemble de données comprend 1 250 exemples multimodaux avec une solvabilité intermodale de 98% et 2 480 exemples unimodaux, couvrant 44 types de tâches et 5 combinaisons de modalités. Il inclut également un modèle de notation général permettant l'évaluation automatisée de 6 types de questions, offrant ainsi une norme d'évaluation unifiée pour les tâches multimodales.

Utilisation directe :https://go.hyper.ai/gIcIK

4. Ensemble de données d'évaluation du raisonnement vocal VERA

VERA est un vaste ensemble de données vocales multitâches, publié par l'Université Duke en collaboration avec Adobe. Il est conçu pour évaluer les capacités de raisonnement de grands modèles dans des conditions vocales naturelles. Tous les échantillons sont présentés sous forme de parole native, et l'audio est synthétisé par Boson Higgs Audio 2 afin de garantir une performance vocale homogène, claire et de haute qualité.

Utilisation directe :https://go.hyper.ai/AfgW5

5. Ensemble de données pour la reconnaissance des émotions faciales

Le jeu de données Facial Emotion Recognition est destiné aux tâches de classification des émotions faciales et permet d'entraîner et d'évaluer différents modèles de reconnaissance des émotions. Il couvre sept émotions de base : la colère, le dégoût, la peur, la joie, la neutralité, la tristesse et la surprise. Les données sont issues des jeux de données publics FER2013 et RAF-DB, et les images faciales sont filtrées à l'aide de HaarCascade (niveau de confiance d'environ 0,8) avant d'être débruitées et améliorées.

Utilisation directe :https://go.hyper.ai/z5x5N

Exemple d'ensemble de données

6. Ensemble de données de résultats d'amarrage AutoDock-GPU_Output

AutoDock-GPU_Output est un exemple de fichier journal de sortie d'amarrage (.dlg) généré par AutoDock-GPU. Il contient des informations telles que l'énergie de liaison, le regroupement des conformations et l'orientation finale du ligand. Il sert de jeu de données de référence pour l'analyse des résultats d'amarrage et peut être utilisé pour apprendre à analyser ces résultats et vérifier la configuration de l'environnement.

Utilisation directe :https://go.hyper.ai/zz7wV

Tutoriels publics sélectionnés

1. PaddleOCR-VL : Analyse de documents multimodaux

PaddleOCR-VL est un modèle de pointe, économe en ressources, conçu spécifiquement pour l'analyse syntaxique de documents. Son composant principal, PaddleOCR-VL-0.9B, est un modèle de langage visuel (VLM) compact et performant qui intègre un encodeur visuel à résolution dynamique de type NaViT au modèle de langage ERNIE-4.5-0.3B, permettant une reconnaissance précise des éléments. Ce modèle innovant prend en charge efficacement 109 langues et excelle dans la reconnaissance d'éléments complexes tels que le texte, les tableaux, les formules et les graphiques, tout en conservant une consommation de ressources extrêmement faible.

Exécutez en ligne :https://go.hyper.ai/3OjbB

Exemples d'effets

2. LongCat-Video : le modèle de génération vidéo IA open source de Meituan

LongCat-Video est un modèle de génération vidéo open source basé sur l'IA et doté de 13,6 milliards de paramètres, développé par l'équipe LongCat de Meituan. Il excelle dans des tâches telles que la conversion de texte en vidéo, d'image en vidéo et la continuation de vidéos, notamment pour la génération efficace de vidéos longues de haute qualité. Grâce à l'optimisation par apprentissage par renforcement multi-récompense (GRPO), le modèle affiche des performances comparables à celles des principaux modèles open source de génération vidéo et des solutions commerciales de pointe, comme l'ont démontré des tests de référence internes et publics.

Exécutez en ligne :https://go.hyper.ai/3DWbb

Exemples d'effets

3. Déploiement de VibeThinker-1.5B à l'aide de vLLM et d'OpenWebUI

VibeThinker-1.5B est le premier modèle open source à grande échelle publié par Weibo AI. Ses performances exceptionnelles ne reposent pas sur une simple accumulation de paramètres, mais sur le concept d'entraînement SSP proposé par les développeurs de Weibo. Ce concept encourage le modèle à explorer toutes les solutions possibles lors de la phase d'apprentissage, plutôt que de se concentrer uniquement sur la précision. L'apprentissage par renforcement est ensuite utilisé pour optimiser efficacement la stratégie, en identifiant avec précision la solution optimale et en maximisant les performances du modèle.

Exécutez en ligne :https://go.hyper.ai/PAcy1

Exemples d'effets

Recommandation de papier de cette semaine

1. Kandinsky 5.0 : Une famille de modèles fondamentaux pour la génération d’images et de vidéos

Ce rapport présente Kandinsky 5.0, une famille de modèles fondamentaux pour la synthèse d'images haute résolution et de vidéos de 10 secondes. Ce cadre comprend trois familles de modèles principales : Kandinsky 5.0 Image Lite, un ensemble de modèles de génération d'images avec 6 milliards de paramètres ; Kandinsky 5.0 Video Lite, un modèle léger et efficace de génération de texte en vidéo et d'images en vidéo avec 2 milliards de paramètres ; et Kandinsky 5.0 Video Pro, un modèle avec 19 milliards de paramètres capable d'atteindre une qualité de génération vidéo exceptionnelle.

Lien vers l'article :https://go.hyper.ai/cpPY4

2. P1 : Maîtriser les Olympiades de physique grâce à l’apprentissage par renforcement

Cet article propose la série P1 de modèles d'inférence physique open source, entièrement entraînés par apprentissage par renforcement (RL). Parmi eux, P1-235B-A22B est le premier modèle open source à avoir obtenu une médaille d'or aux Olympiades internationales de physique de 2025 (IPhO 2025), et il a remporté 12 médailles d'or dans 13 compétitions internationales et régionales de physique en 2024 et 2025.

Lien vers l'article :https://go.hyper.ai/434Df

3. VIDEOP2R : Compréhension vidéo : de la perception au raisonnement

Cet article propose VideoP2R, un nouveau cadre d'apprentissage par renforcement procédural pour la vidéo, permettant d'améliorer les capacités de raisonnement vidéo en modélisant la perception et le raisonnement comme deux processus indépendants. De nombreuses expériences démontrent que VideoP2R atteint des performances de pointe sur six des sept jeux de données de référence pour le raisonnement et la compréhension vidéo.

Lien vers l'article :https://go.hyper.ai/0CChs

4. Uni-MoE-2.0-Omni : Mise à l’échelle d’un modèle omnimodal de grande taille centré sur le langage avec MoE avancé, entraînement et données

Cet article présente Uni-MoE 2.0, un modèle omnimodal de grande taille (OLM) entièrement open source et à usage général. Ce modèle fait progresser significativement l'évolution technologique d'Uni-MoE en matière de compréhension, de raisonnement et de génération multimodaux centrés sur le langage. Des évaluations approfondies menées sur 85 jeux de données de référence démontrent que ce modèle atteint, ou approche, les performances de pointe des principaux modèles OLM actuels. Sur plus de 50 des 76 jeux de données de référence, il surpasse Qwen2.5-Omni, qui dispose d'un ensemble d'entraînement de 1 200 milliards de jetons.

Lien vers l'article :https://go.hyper.ai/wETcQ

5. Réfléchir intensément : Itérations latentes sélectives pour améliorer les modèles de langage de raisonnement

Cet article propose Think-at-Hard (TaH), un mécanisme de pensée implicite dynamique qui effectue des itérations profondes uniquement sur les jetons difficiles à prédire. Cette méthode introduit un décideur neuronal léger qui déclenche des itérations implicites uniquement sur les jetons pour lesquels la propagation avant standard risque d'être erronée. Durant le processus d'itération implicite, un module d'adaptation pour les jetons de faible rang (LoRA) oriente l'objectif du LLM (Low-Rank Model) de la prédiction générale du jeton suivant vers un ajustement précis des jetons difficiles.

Lien vers l'article :https://go.hyper.ai/jp3xw

Autres articles sur les frontières de l'IA :https://go.hyper.ai/iSYSZ

Interprétation des articles communautaires

1. L'innovation interdisciplinaire surpasse-t-elle de loin les capacités humaines ? Les chercheurs en IA proposent des hypothèses, mènent des expériences et présentent leurs travaux lors de conférences de haut niveau, inaugurant ainsi un nouveau paradigme pour la recherche scientifique.

En août 2024, Sakana AI, fondée par Llion Jones, co-auteur de l'article sur les Transformers, a lancé le premier « scientifique IA » au monde, capable de proposer de manière autonome des questions de recherche, de concevoir des expériences et de rédiger des articles, provoquant un véritable séisme au sein de la communauté scientifique internationale. Des expériences automatisées à la découverte autonome, l'IA passe du rôle d'assistante de recherche à celui de « co-chercheuse ». Comment l'avenir de la science sera-t-il redéfini lorsque l'IA investira les laboratoires ?

Voir le rapport complet :https://go.hyper.ai/ICpf1

2. Tutoriel en ligne | La détection d'objets entre dans l'ère de la « conscience mondiale » : l'université Tsinghua et d'autres institutions publient YOLOv13, réalisant des avancées majeures en termes de vitesse et de précision.

Une équipe de recherche conjointe, composée d'experts des universités Tsinghua, Taiyuan et Xi'an Jiaotong, a proposé un nouveau modèle de détection d'objets, YOLOv13, qui étend la modélisation de la pertinence des structures binaires aux structures d'ordre supérieur. Les résultats montrent que YOLOv13 améliore significativement les performances de détection sur MS COCO, des petits modèles (série N) aux grands modèles, atteignant des performances de pointe avec un nombre réduit de paramètres et d'opérations en virgule flottante (FLOPs). Plus précisément, YOLOv13-N améliore la mAP de 3,01 TP3T par rapport à YOLOv11-N et de 1,51 TP3T par rapport à YOLOv12-N.

Voir le rapport complet :https://go.hyper.ai/W4vib

3. Percée dans la géolocalisation d'images ! L'Université du Maine, Google, OpenAI et d'autres ont proposé le cadre LocDiff, permettant un positionnement global précis sans avoir besoin de grilles ou de bibliothèques de référence.

Une équipe conjointe de l'Université du Maine, de Google et de l'Université Harvard a proposé la « Fonction de Dirac Harmonique Sphérique (SHDD) » et son cadre intégré LocDiff. Grâce à une méthode d'encodage et une architecture de diffusion adaptées à la géométrie sphérique, cette approche permet une localisation précise sans recourir à des grilles prédéfinies ni à des bibliothèques d'images externes, ouvrant ainsi une voie technique novatrice dans le domaine.

Voir le rapport complet :https://go.hyper.ai/Ucsq8

4. De 9 874 articles à 15 000 structures cristallines, MOF-ChemUnity reconstruit la connaissance panoramique des MOF, propulsant la découverte de matériaux dans l'ère de « l'IA interprétable ».

Une équipe de recherche de l'Université de Toronto et du Centre de recherche sur l'innovation en énergie propre du Conseil national de recherches du Canada a proposé MOF-ChemUnity : un graphe de connaissances structuré, évolutif et extensible. Cette méthode utilise LLM pour établir une correspondance biunivoque fiable entre les noms de MOF et leurs synonymes dans la littérature, ainsi qu'avec les structures cristallines enregistrées dans la CSD, permettant ainsi de lever l'ambiguïté entre les noms de MOF, leurs synonymes et leurs structures cristallines.

Voir le rapport complet :https://go.hyper.ai/cRR1o

5. Des pressings au prix d'ingénierie de la reine Elizabeth, Fei-Fei Li défie le mythe technologique de la Silicon Valley, en se concentrant sur les risques de déshumanisation de l'IA.

Au printemps 2025, Fei-Fei Li a reçu le Prix Reine Elizabeth d'Ingénierie, en reconnaissance de ses contributions fondamentales à la vision par ordinateur et à l'apprentissage profond. Figure clé du projet ImageNet, elle a été pionnière dans le développement de méthodes de reconnaissance visuelle basées sur les données et a proposé une philosophie de l'IA centrée sur l'humain, tout en restant vigilante quant à l'éthique de l'IA, sa valeur sociale et le risque de déshumanisation face à la vague de commercialisation de la Silicon Valley. Cependant, son appartenance à une minorité la place dans une position délicate à la croisée des chemins entre les avancées scientifiques et les pratiques industrielles, alimentant un débat permanent.

Voir le rapport complet :https://go.hyper.ai/bRu25

Articles populaires de l'encyclopédie

1. DALL-E

2. Hyperréseaux

3. Front de Pareto

4. Mémoire bidirectionnelle à long terme (Bi-LSTM)

5. Fusion de rang réciproque

Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :

https://go.hyper.ai/wiki

Conférence de haut niveau avec une date limite en décembre

Suivi unique des principales conférences universitaires sur l'IA :https://go.hyper.ai/event

Voici tout le contenu de la sélection de l’éditeur de cette semaine. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre un article pour nous le dire !

À la semaine prochaine !

À propos d'HyperAI

HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :

* Fournir des nœuds de téléchargement accélérés nationaux pour plus de 1 800 ensembles de données publics

* Comprend plus de 600 tutoriels en ligne classiques et populaires

* Interprétation de plus de 200 cas d'articles AI4Science

* Prend en charge la recherche de plus de 600 termes associés

* Hébergement de la première documentation complète d'Apache TVM en Chine

Visitez le site Web officiel pour commencer votre parcours d'apprentissage :

https://hyper.ai