HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Compte Rendu De l'événement | L'Université De Pékin, l'Université Tsinghua, Zilliz Et MoonBit Discutent De l'open Source Et Abordent La Génération Vidéo, La Compréhension Visuelle, Les Bases De Données Vectorielles Et Les Langages De Programmation Natifs Pour l'IA.

il y a 5 jours
Information
h.li
Featured Image

L'industrie de l'IA connaît actuellement un cycle de développement sans précédent. L'application à grande échelle de modèles complexes, la restructuration des systèmes logiciels natifs de l'IA et l'évolution accélérée des modèles fondamentaux multimodaux brouillent les frontières entre le monde académique et l'industrie. Qu'il s'agisse des exigences toujours plus sophistiquées en matière de synchronisation audiovisuelle pour la génération vidéo, de l'optimisation efficace de l'inférence des modèles visuels embarqués ou de l'émergence de langages de programmation natifs de l'IA de nouvelle génération, tous ces éléments convergent vers une tendance claire :La collaboration entre l'industrie et le monde universitaire ainsi que les écosystèmes open source deviennent les paradigmes d'innovation les plus importants à l'ère de l'IA.

Ces dernières décennies, le cycle où la recherche scientifique stimule l'industrie et où l'industrie soutient la recherche scientifique a été courant. Cependant, face à la croissance exponentielle actuelle des modèles, de la puissance de calcul et des données, l'innovation isolée ne suffit plus à répondre aux besoins.L'open source a évolué du partage d'outils à la collaboration en matière d'infrastructures, devenant un lien essentiel reliant les universités, les entreprises, les communautés et les développeurs individuels.Dans des domaines de pointe tels que la vision, le multimodal, les bases de données vectorielles et les langages de programmation d'IA, l'open source a non seulement accéléré la diffusion des technologies, mais a également remodelé l'organisation de la R&D, favorisant ainsi une plus grande « innovation par la co-création ».

Dans ce contexte,HyperAI, en tant que communauté coproductrice de COSCon'25, a organisé le « Forum de collaboration open source industrie-recherche » le 7 décembre.Nous sommes honorés d'avoir invité Shi Baixin, chercheuse à l'Université de Pékin, Li Chenglong, principal évangéliste de l'open source chez Zilliz, Chen Hui, chercheuse adjointe à l'Université Tsinghua, et Lei Zhengyu, développeur principal de la communauté MoonBit, à discuter de la voie de mise en œuvre de la recherche de pointe dans l'écosystème open source, du paradigme itératif des projets open source dans la pratique industrielle et de la manière dont les applications d'IA continueront à repousser leurs limites grâce à la puissance de la communauté à l'avenir.

Shi Baixin : Création d'un tout nouvel ensemble de données pour réaliser un nouveau paradigme pour la technologie de génération vidéo et de synchronisation audiovisuelle

Actuellement, les technologies de génération vidéo ont progressé en termes de qualité d'image et de cohérence temporelle à court terme, permettant de générer des clips courts de haute fidélité et d'atteindre un certain degré de synchronisation audio-visuelle. Cependant, les méthodes traditionnelles présentent encore des problèmes tels que la distorsion en latitude et en longitude, l'assemblage discontinu des points de vue, la faible cohérence des cibles mobiles et une stabilité temporelle insuffisante à long terme. De plus, il existe une forte corrélation entre les contenus audio et visuels. Afin de permettre aux modèles de capturer de manière réaliste plusieurs types d'informations, comme la parole, la musique et les sons ambiants, il est nécessaire de concevoir un cadre de génération capable de comprendre les signaux multipistes.

Professeur Shi Baixin

Dans ce contexte,L'équipe du professeur Shi Baixin a proposé la technique du flux d'intervalles pour la synchronisation audio-visuelle, qui permet au modèle de « regarder plusieurs images avant et après » pendant le processus d'apprentissage, établissant ainsi des connexions attentionnelles dans le temps.En intégrant des modules internes, le modèle peut mettre en œuvre des mécanismes d'auto-attention sur différentes pistes audio afin de traiter plus précisément différents types d'informations audio, comme la parole et les sons ambiants. Compte tenu de la nature plus globale de la partie musicale, l'équipe a implémenté un rendu émotionnel par injection de caractéristiques globales, permettant ainsi au modèle de générer des visuels correspondant à l'atmosphère musicale.

Le professeur Shi Baixin a présenté les avancées réalisées par l'équipe dans le cadre de ce projet :

* Un cadre de génération vidéo multifonctionnel synchronisé avec l'audio est proposé.Un mappage audiovisuel précis et un alignement temporel exact sont obtenus grâce au démixage audio.

* Un nouvel ensemble de données pour la génération de vidéos synchronisées avec l'audio, composé de 5 sous-ensembles qui se chevauchent, a été construit.Il contient environ 392 000 segments audio et vidéo, soit environ 1 200 heures d'enregistrement. Grâce à cet ensemble de données, le modèle est capable d'apprendre la synchronisation labiale, le contrôle du timing des événements et le rendu de l'ambiance émotionnelle au cours de plusieurs cycles d'entraînement.

* Un réseau de contrôle temporel multi-flux est proposé pour le traitement des pistes audio démixées.Contrôle précis de la synchronisation labiale, du déroulement des événements et de l'ambiance émotionnelle.

Les résultats correspondants, intitulés « Génération vidéo synchronisée audio avec contrôle temporel multi-flux », ont été sélectionnés pour NeurIPS 2025.

en plus,L'équipe du professeur Shi Baixin a également acquis la capacité de générer des vidéos panoramiques contenant de véritables cibles mobiles, et prend en charge des tâches telles que les vidéos longues, le montage sémantique, la super-résolution et l'interpolation de point de vue.Cette méthode utilise une technique d'échantillonnage prenant en compte la latitude afin de réduire efficacement la distorsion de l'image causée par la projection rectangulaire équidistante. Simultanément, elle résout le problème de l'incohérence sémantique visuelle aux limites de longitude grâce à des stratégies de débruitage sémantique rotationnel et de décodage par remplissage des contours pixel par pixel.

Les résultats connexes, intitulés « PanoWan : Élever les modèles de génération vidéo de diffusion à 360° avec des mécanismes prenant en compte la latitude/longitude », ont également été inclus dans NeurIPS 2025.

Li Chenglong : Création de services commerciaux basés sur Milvus, la première base de données vectorielles open source

En octobre 2019,Milvus est désormais officiellement open source. Première base de données vectorielles open source au monde, elle a été mise en œuvre dans les projets de plus de 10 000 entreprises et a recueilli 40 000 étoiles sur GitHub.Milvus prend en charge un large éventail de types de données, notamment les données vectorielles de type Float, Sparse et Binary. Il permet également la suppression dynamique, l'ajout et la récupération instantanés, ainsi que la persistance sur disque en temps réel. De plus, il offre des fonctions de filtrage par étiquette et vecteur, ainsi que de recherche par mot-clé et vecteur.

Professeur Li Chenglong

Le professeur Li Chenglong a passé en revue l'évolution architecturale de Milvus, notant que dans la version LTS publiée en mars 2021,L'équipe a réalisé un important travail d'ingénierie sur la persistance des données, le partitionnement des données et la prise en charge de différents matériels hétérogènes.Cette version présente toutefois un inconvénient majeur : toutes les opérations d’écriture, d’indexation, etc., sont effectuées par un seul composant, formant ainsi une architecture monomachine. Son principal défaut réside dans sa scalabilité très limitée lorsque le volume de données est important ou que le nombre de requêtes par seconde (QPS) est élevé. Il devient alors difficile de répondre aux besoins considérables des grandes entreprises en matière de données, ou aux pics de trafic de requêtes comme lors du 11 novembre.

Actuellement, l'équipe a apporté de nombreuses optimisations à l'architecture de la dernière version Milvus 2.6, telles que l'ajout de StreamingNode pour gérer les données incrémentales, la fusion de DataNode et IndexNode, et l'ajout de Woodpecker, développé en interne, à la file d'attente des messages de la couche objet, etc.

Après avoir connu le succès dans le domaine de l'open source, Zilliz a commencé à réfléchir à la manière de le commercialiser et a finalement découvert qu'il n'existe essentiellement qu'une seule façon de commercialiser une infrastructure open source :Cela signifie fournir des services SaaS sur le cloud public.Par conséquent, outre Milvus, solution open source, l'entreprise a également développé Zilliz Cloud, une plateforme cloud entièrement gérée basée sur Milvus. Nombre de nos clients entreprises actuels ont découvert l'entreprise grâce au projet open source Milvus, ce qui les a amenés à apprécier le produit et à promouvoir les services SaaS ultérieurs.

Chen Hui : Construction d'un réseau dorsal léger pour une compréhension visuelle périphérique efficace et précise

La technologie de compréhension visuelle est un sujet d'actualité dans le domaine de l'intelligence artificielle, avec un intérêt majeur pour la recherche académique et ses applications. Actuellement, elle est largement utilisée dans les appareils mobiles, les robots, la conduite autonome et d'autres applications terminales. Cependant, en raison de limitations telles que la puissance de calcul insuffisante des puces produites localement et la redondance importante des modèles traditionnels, conjuguées à la nécessité d'une grande polyvalence dans des environnements complexes, la recherche de modèles visuels efficaces est particulièrement urgente.

Professeur Chen Hui

Pour répondre aux besoins des applications terminales réelles,L'équipe du professeur Chen Hui s'est concentrée à la fois sur la polyvalence du modèle de base et sur l'efficacité de l'inférence, et a construit un réseau dorsal léger pour établir un modèle visuel de base efficace et universel, permettant ainsi une compréhension visuelle des contours efficace et précise.Ses principaux aspects techniques comprennent trois aspects :

* Conception de structures d'apprentissage profond asymétriques et de structures de réseaux dynamiques légères ;

* Modèle de détection de cibles de bout en bout en temps réel YOLOv10 ;

* Compréhension visuelle générale en domaine ouvert.

Pour remédier au problème de redondance causé par la structure symétrique « entraînement-inférence » des modèles d'apprentissage profond,L'équipe a proposé le concept d'« architecture d'apprentissage profond asymétrique ».Durant la phase d'entraînement, une structure plus complexe est utilisée pour un apprentissage plus efficace, tandis que durant la phase d'inférence, des transformations équivalentes permettent de réduire la charge de calcul, assurant ainsi un déploiement rapide et léger. Dans ce cadre, l'équipe a lancé plusieurs réseaux de neurones de référence, dont RepViT (CVPR 2024) et LSNet (CVPR 2025).

En matière de détection de cibles,L'équipe s'est concentrée sur la résolution de deux problèmes majeurs dans les modèles de la série YOLO : la fusion multi-images entraînant une dépendance au NMS et la redondance dans la structure du modèle.Pour remédier à ce problème, l'équipe a proposé une stratégie cohérente de double étiquetage. Lors de l'entraînement, les têtes de détection un-à-un et un-à-plusieurs sont optimisées simultanément, tandis que lors de l'inférence, seules les têtes de détection un-à-un sont utilisées, garantissant ainsi une détection et une reconnaissance sans perte et sans NMS. 

De plus, des méthodes de conception de modèles axées sur l'efficacité et la précision ont été développées pour pallier la complexité de calcul élevée due à la redondance structurelle du modèle. Sur la base de ces méthodes, une nouvelle génération de modèle de détection de cibles sans NMS, à haute efficacité et haute précision, YOLOv10 (NeurIPS 2024), a été construite, atteignant un équilibre optimal entre performance et efficacité d'inférence.

* Consultez le document :

https://hyper.ai/papers/2405.14458

Concernant l'application des modèles dans divers scénarios, les modèles de détection d'objets traditionnels sont souvent limités par des ensembles d'étiquettes prédéfinis, ce qui rend difficile leur adaptation aux environnements ouverts réels. Pour pallier ce problème, l'équipe a lancé YOLOE (ICCV 2025), un modèle fondamental pour la compréhension visuelle en environnements ouverts. Ce vaste modèle de langage fournit des représentations intermodales généralisables, utilise des techniques de reparamétrisation structurelle pour réduire la complexité de l'inférence et aboutit à un modèle unifié prenant simultanément en charge la détection et la segmentation d'objets ouverts. Il prend en charge les indices multimodaux ouverts, incluant le texte et la vision, surmontant ainsi les limitations des modèles de compréhension visuelle traditionnels.

Lei Zhengyu : MoonBit, une pratique open source pour repenser la productivité logicielle à l’ère de l’IA native.

L'exploration de MoonBit découle d'une réalité industrielle de plus en plus évidente : les modèles à grande échelle s'intègrent profondément dans l'ensemble du processus de développement logiciel, mais les systèmes d'ingénierie existants ne peuvent s'adapter pleinement à cette évolution. Avec cette intégration poussée des modèles à grande échelle, l'ingénierie logicielle connaît un changement de paradigme majeur ; l'IA n'est plus un simple outil, mais devient un acteur central des processus de génération, de refactorisation et de vérification du code.Le modèle évolue progressivement du modèle traditionnel « code écrit par l'homme + assistance machine » vers le modèle « génération, développement et révision par l'IA ». L'équipe MoonBit de l'IDEA Research Institute est pionnière dans cette tendance.

Dr Lei Zhengyu

Le Dr Lei Zhengyu, développeur principal de la communauté MoonBit, a expliqué que les langages de programmation traditionnels n'étaient pas optimisés pour l'interaction avec l'IA lors de leur conception initiale, et que le code généré par l'IA souffre souvent d'une faible lisibilité, de difficultés de débogage et de difficultés de réutilisation. L'objectif de MoonBit est de reconstruire un système de production logicielle adapté à l'ère de l'intelligence artificielle, en utilisant un langage de programmation natif de l'IA.L'objectif est de rendre le code généré par l'IA plus facile à comprendre pour les humains, plus conforme aux pratiques d'ingénierie, et d'améliorer l'efficacité globale du développement, de la refactorisation et du débogage, en construisant une plateforme de développement cloud-native IA orientée vers l'avenir et en open source.

Dans sa présentation, Lei Zhengyu a mentionné que la conception du langage, la chaîne d'outils du compilateur et le développement de l'écosystème de MoonBit mettent tous l'accent sur trois objectifs principaux :

* Il vise une vitesse de compilation et une taille cible générée optimales, et dispose de fonctions d'outils d'analyse statique ;

* Son apprentissage est facile et sa complexité faible ;

* Développer des fonctionnalités expressives riches qui ne reposent pas sur des conventions.

Poussés par cette direction,La communauté MoonBit a accumulé des milliers de packages open source dans divers domaines tels que le développement web, le calcul numérique et les SDK middleware open source, formant ainsi un écosystème communautaire florissant.En matière de collaboration industrielle, MoonBit établit activement des liens techniques avec Python, JavaScript et WebAssembly. Grâce à l'encapsulation automatisée, aux appels inter-langages et à une chaîne d'outils d'interface de modules unifiée, les développeurs peuvent non seulement réutiliser directement l'écosystème Python mature au sein de MoonBit, mais aussi appeler du code JavaScript ou intégrer des composants WASM en toute transparence, réduisant ainsi considérablement les coûts de développement répétitif et de compatibilité dans les scénarios inter-langages.

Compte Rendu De l'événement | L'Université De Pékin, l'Université Tsinghua, Zilliz Et MoonBit Discutent De l'open Source Et Abordent La Génération Vidéo, La Compréhension Visuelle, Les Bases De Données Vectorielles Et Les Langages De Programmation Natifs Pour l'IA. | Actualités | HyperAI