HyperAI

AI Paper Weekly | Chai-2 Améliore L'efficacité De La Conception Des Anticorps, Avec Un Taux De Réussite Multiplié Par 100 ; Aperçu Rapide De Plusieurs Articles Présélectionnés Par L'icml

特色图像

Les modèles de langage visuel (MLV) repoussent progressivement les limites de la compréhension textuelle traditionnelle et évoluent vers une perception et une analyse approfondies d'informations visuelles complexes, devenant ainsi un composant essentiel des systèmes intelligents actuels. Grâce aux avancées significatives de l'intelligence des modèles, leurs applications se sont étendues de la perception visuelle de base à la résolution de problèmes scientifiques et à la construction d'agents intelligents autonomes, ce qui a accru les exigences en matière de capacités des modèles. Bien que des recherches pertinentes soient en cours, elles se limitent pour la plupart à des domaines spécifiques et il manque encore un modèle général de raisonnement multimodal.

À cet égard, Zhipu AI et l'Université Tsinghua ont conjointement proposé GLM-4.1V-Thinking. En tant que modèle de langage visuel général de compréhension et de raisonnement multimodal, ce modèle présente d'excellentes performances dans diverses tâches telles que la résolution de problèmes STEM, la compréhension vidéo, la reconnaissance de contenu, la programmation, la résolution de références, les agents basés sur des interfaces graphiques et la compréhension de documents longs. Parmi ces tâches, il affiche des performances comparables, voire supérieures, à celles de modèles à code source fermé tels que GPT-4o pour la compréhension de documents longs et le raisonnement STEM.

Lien vers le document:https://go.hyper.ai/fEPb4

Derniers articles sur l'IA:https://go.hyper.ai/hzChC

Afin de permettre à davantage d'utilisateurs de connaître les derniers développements dans le domaine de l'intelligence artificielle dans le milieu universitaire, le site Web officiel d'HyperAI (hyper.ai) a désormais lancé une section « Derniers articles », qui met à jour quotidiennement les articles de recherche de pointe sur l'IA.Voici 5 articles populaires sur l'IA que nous recommandons,Il contient le jeu de données de référence des métamatériaux mécaniques UniMate et son adresse de téléchargement. Nous avons également résumé la carte mentale de la structure de l'article. Jetons un coup d'œil rapide aux avancées de la semaine en IA.

Recommandation de papier de cette semaine

1 GLM-4.1V-Pensée : Vers un raisonnement multimodal polyvalent avec un apprentissage par renforcement évolutif

Cet article présente GLM-4.1V-Thinking, un modèle de langage visuel conçu pour améliorer la compréhension et le raisonnement multimodaux généraux. L'équipe a publié en open source le modèle GLM-4.1V-9B-Thinking, qui atteint des performances de pointe parmi les modèles de taille similaire.

Après une évaluation complète sur 28 benchmarks publics, le modèle surpasse Qwen2.5-VL-7B sur presque toutes les tâches et affiche des performances comparables, voire supérieures, à celles du Qwen2.5-VL-72B, nettement plus performant, sur 18 benchmarks. Il affiche également des performances comparables, voire supérieures, à celles des modèles propriétaires tels que GPT-4o sur des tâches complexes comme la compréhension de longs documents et le raisonnement STEM, ce qui souligne encore davantage ses puissantes capacités.

Lien vers l'article :https://go.hyper.ai/fEPb4

Diagramme d'architecture du modèle
Carte mentale en papier

2 Conception d'anticorps à injection zéro dans une plaque à 24 puits

Cet article présente le modèle génératif multimodal Chai-2, qui atteint un taux de réussite de 16% dans la conception d'anticorps entièrement de novo, soit une amélioration de plus de 100 fois par rapport aux méthodes de calcul précédentes. Outre la conception d'anticorps, Chai-2 affiche un taux de réussite en laboratoire humide de 68% dans la conception de mini-protéines, générant souvent des liants picomolaires. Ce taux de réussite élevé permet de valider et de caractériser expérimentalement de nouveaux anticorps rapidement en moins de deux semaines, ouvrant la voie à une nouvelle ère d'ingénierie moléculaire rapide et précise à l'échelle atomique.

Lien vers l'article :https://go.hyper.ai/rRRML

Exemple de tâche
Carte mentale en papier

3 UniMate : un modèle unifié pour la génération de métamatériaux mécaniques, la prédiction des propriétés et la confirmation de l'état

La conception de métamatériaux mécaniques implique généralement trois modes clés : la structure topologique tridimensionnelle, la densité et les propriétés mécaniques. Cependant, la plupart des études existantes ne prennent en compte que deux modes. Cet article propose un modèle unifié, UniMate, composé d'un module d'alignement modal et d'un module de génération de diffusion coopérative. Les résultats expérimentaux montrent qu'UniMate surpasse les autres modèles de référence de 80,21 TP3T, 5,11 TP3T et 50,21 TP3T respectivement dans les tâches de génération de topologie, de prédiction de performances et de confirmation de conditions.

Lien vers l'article :https://go.hyper.ai/KNcmr

Ensemble de données de référence sur les métamatériaux mécaniques UniMate :https://go.hyper.ai/p4535

Diagramme d'architecture du modèle
Carte mentale en papier

4 SAM4D : segmentez tout dans les flux de caméra et LiDAR

Cet article présente un nouveau modèle SAM4D, qui vise à réaliser des tâches de segmentation multimodales et spatiotemporelles entre les flux de caméras et de radars. Ce modèle aligne les caractéristiques des caméras et des radars grâce à un codage de position multimodal unifié et utilise un mécanisme d'attention mémoire intermodal sensible au mouvement pour améliorer la cohérence temporelle et garantir une segmentation robuste dans les environnements dynamiques. Pour éviter le goulot d'étranglement des annotations, cet article propose également un moteur de données automatique capable de générer automatiquement des pseudo-étiquettes de haute qualité à partir de masques d'images vidéo, de reconstruction 4D et de fusion de masques intermodaux, améliorant ainsi l'efficacité de l'annotation tout en préservant la précision sémantique dérivée du VFM.

Lien vers l'article :https://go.hyper.ai/QtQEx

Diagramme d'architecture du modèle
Carte mentale en papier

5 WebSailor : Naviguer dans le raisonnement surhumain pour agent Web

Cet article propose une méthode d'entraînement de grands modèles linguistiques afin d'atteindre des capacités de raisonnement dépassant les limites de la cognition humaine, en mettant l'accent sur la performance de tâches complexes de recherche d'informations. Cette méthode repose sur la génération de données de tâches difficiles à analyser, l'exploitation de stratégies efficaces d'apprentissage par renforcement et la mise en œuvre de techniques de démarrage à froid appropriées pour améliorer les capacités du modèle. Ainsi, le modèle WebSailor développé surpasse largement les modèles open source sur des benchmarks complexes de recherche d'informations en anglais et en chinois tels que BrowseComp, et se rapproche, voire atteint, le niveau de performance de certains systèmes propriétaires.

Lien vers l'article :https://go.hyper.ai/qyvf2

Exemple de tâche
Carte mentale en papier

Voici l'intégralité du contenu de la recommandation d'article de cette semaine. Pour découvrir d'autres articles de recherche de pointe en IA, veuillez consulter la section « Derniers articles » du site officiel d'hyper.ai.

Nous invitons également les équipes de recherche à nous soumettre des résultats et des articles de haute qualité. Les personnes intéressées peuvent ajouter leur compte WeChat NeuroStar (identifiant WeChat : Hyperai01).

À la semaine prochaine !