Rapport Hebdomadaire Sur l'IA : Dernier Modèle De Langage De NVIDIA/Rapport Technique Ovis 2.5... Un Aperçu Rapide Des Dernières Avancées En Matière d'optimisation De l'architecture Des Grands Modèles, De Modélisation 3D, d'alignement Et d'auto-vérification

Avec le développement rapide des modèles linguistiques à grande échelle, les mécanismes d'attention totale ont démontré une précision impressionnante. Cependant, leur complexité de calcul O(n²) entraîne une consommation importante de mémoire et de puissance de calcul pour les tâches à contexte long, limitant ainsi leur efficacité. Les architectures existantes reposent souvent sur un apprentissage ex nihilo, coûteux et inadapté aux instituts de recherche de petite et moyenne taille. Les architectures hybrides, tout en conciliant précision et efficacité, restent confrontées à des difficultés de conception et d'adaptation matérielle.
Pour relever ces défis, l'équipe de recherche a proposé Jet-Nemotron, qui utilise la recherche d'architecture post-neurale (PostNAS) pour geler les poids MLP sur un modèle d'attention complète pré-entraîné, explorer la conception optimale du module d'attention et améliorer considérablement le débit de génération tout en maintenant ou en dépassant la précision du modèle d'attention complète, offrant ainsi une voie réalisable pour une conception efficace du modèle de langage.
Lien vers le document:https://go.hyper.ai/8MhfF
Derniers articles sur l'IA:https://go.hyper.ai/hzChC
Afin de permettre à davantage d'utilisateurs de connaître les derniers développements dans le domaine de l'intelligence artificielle dans le milieu universitaire, le site Web officiel d'HyperAI (hyper.ai) a désormais lancé une section « Derniers articles », qui met à jour quotidiennement les articles de recherche de pointe sur l'IA.Voici 5 articles populaires sur l'IA que nous recommandonsNous avons également résumé la carte mentale de la structure du document pour tous. Jetons un coup d'œil rapide aux avancées de pointe en IA de la semaine.
Recommandation de papier de cette semaine
1. Jet-Nemotron : modèle de langage efficace avec recherche d'architecture post-neurale
Cet article présente Jet-Nemotron, une famille de nouveaux modèles de langage à architecture hybride qui améliore considérablement le débit de génération tout en maintenant, voire en surpassant, la précision des principaux modèles d'attention totale. Jet-Nemotron a été développé grâce à un nouveau processus d'exploration d'architecture neuronale appelé « Recherche d'architecture post-neurale », qui permet une conception efficace des modèles. Contrairement aux approches traditionnelles, PostNAS part d'un modèle d'attention totale pré-entraîné et fige ses pondérations perceptroniques multicouches, permettant ainsi une exploration efficace des structures des modules d'attention.
Lien vers l'article :https://go.hyper.ai/8MhfF


2. Rapport technique Ovis2.5
Cet article présente Ovis2.5, conçu pour la perception visuelle en résolution native et un puissant raisonnement multimodal. Ovis2.5 intègre un transformateur visuel en résolution native qui traite les images directement à leur résolution native variable, évitant ainsi la dégradation de qualité associée à la segmentation à résolution fixe, tout en préservant pleinement les détails fins et la présentation globale.
Lien vers l'article :https://go.hyper.ai/nZOmk


3. FutureX : un benchmark avancé en direct pour les agents LLM en matière de prédiction du futur
La prédiction du futur exige des agents un raisonnement complexe et une adaptabilité dynamique, une tâche complexe pour les agents à grands modèles de langage. Actuellement, il existe un manque de benchmarks à grande échelle capables de se mettre à jour en temps réel et d'évaluer avec précision leurs performances de prédiction. Cet article propose FutureX, un benchmark d'évaluation dynamique en temps réel spécialement conçu pour les tâches de prédiction du futur des agents LLM. FutureX est le framework d'évaluation de prédiction en temps réel le plus vaste et le plus diversifié à ce jour. Il prend en charge les mises à jour quotidiennes en temps réel et utilise des processus automatisés pour la collecte de questions et réponses, éliminant ainsi efficacement la contamination des données.
Lien vers l'article :https://go.hyper.ai/rjbaU


4. MeshCoder : génération de code maillé structuré à partir de nuages de points grâce à LLM
La reconstruction d'objets 3D en programmes modifiables est essentielle pour des applications telles que la rétro-ingénierie et l'édition de formes. Cependant, les méthodes existantes présentent encore de nombreuses limites. Cet article propose MeshCoder, un nouveau framework permettant de reconstruire des objets 3D complexes à partir de nuages de points en scripts Python Blender modifiables. Grâce au développement d'une API riche, à la création d'un jeu de données objet-code à grande échelle et à l'entraînement d'un modèle multimodal en langage étendu, il permet une conversion haute précision des formes en code. Cela améliore non seulement les performances de reconstruction 3D, mais prend également en charge l'édition intuitive de la géométrie et de la topologie, améliorant ainsi les capacités de raisonnement de LLM pour la compréhension des formes 3D.
Lien vers l'article :https://go.hyper.ai/EAWIn


5. DuPO : auto-vérification fiable des LLM grâce à l'optimisation DualPreference
Cet article propose DuPO, un cadre d'optimisation des préférences basé sur l'apprentissage double qui génère un feedback non étiqueté via la dualité généralisée. DuPO répond à deux limitations majeures : premièrement, l'apprentissage par renforcement avec récompenses vérifiables (RLVR) repose sur des annotations coûteuses et ne s'applique qu'aux tâches vérifiables ; deuxièmement, l'apprentissage double traditionnel est limité à des paires de tâches strictement duales (par exemple, traduction et rétrotraduction).
Lien vers l'article :https://go.hyper.ai/2Gycl


Voici l'intégralité du contenu de la recommandation d'article de cette semaine. Pour découvrir d'autres articles de recherche de pointe en IA, veuillez consulter la section « Derniers articles » du site officiel d'hyper.ai.
Nous invitons également les équipes de recherche à nous soumettre des résultats et des articles de haute qualité. Les personnes intéressées peuvent ajouter leur compte WeChat NeuroStar (identifiant WeChat : Hyperai01).
À la semaine prochaine !