HyperAI

Déplacement de l'efficacité de l'IA du centrage sur le modèle au centrage sur les données

Liu, Xuyang ; Wen, Zichen ; Wang, Shaobo ; Chen, Junjie ; Tao, Zhishan ; Wang, Yubo ; Jin, Xiangqi ; Zou, Chang ; Wang, Yiyu ; Liao, Chenfei ; Zheng, Xu ; Chen, Honggang ; Li, Weijia ; Hu, Xuming ; He, Conghui ; Zhang, Linfeng
Date de publication: 5/27/2025
Déplacement de l'efficacité de l'IA du centrage sur le modèle au centrage sur les données
Résumé

L'avancement rapide des grands modèles de langage (GML) et des GML multimodaux (MGML) a historiquement reposé sur l'échelle centrée sur le modèle en augmentant les nombres de paramètres de millions à des centaines de milliards pour améliorer les performances. Cependant, alors que nous approchons les limites matérielles de la taille des modèles, la principale bouteille d'encolure computationnelle s'est fondamentalement déplacée vers le coût quadratique de l'auto-attention sur de longues séquences de jetons, désormais alimenté par des contextes textuels ultra-longues, des images haute résolution et des vidéos étendues. Dans ce document de position, \textbf{nous soutenons que le focus de la recherche pour une IA efficace est en train de passer d'une compression centrée sur le modèle à une compression centrée sur les données}. Nous plaçons la compression de jetons comme nouvelle frontière, qui améliore l'efficacité de l'IA en réduisant le nombre de jetons lors de l'entraînement ou de l'inférence du modèle. À travers une analyse exhaustive, nous examinons d'abord les développements récents en IA à long contexte dans divers domaines et établissons un cadre mathématique unifié pour les stratégies existantes d'efficacité du modèle, démontrant pourquoi la compression de jetons représente un changement paradigmatique crucial pour gérer les coûts liés au long contexte. Ensuite, nous passons en revue systématiquement le paysage de recherche en compression de jetons, analysons ses avantages fondamentaux et identifions ses avantages convaincants dans divers scénarios. De plus, nous fournissons une analyse approfondie des défis actuels en recherche sur la compression de jetons et esquissons des directions futures prometteuses. En fin de compte, notre travail vise à offrir une perspective renouvelée sur l'efficacité de l'IA, à synthétiser les recherches existantes et à stimuler des développements innovants pour relever les défis que posent les contextes croissants aux progrès de la communauté d'IA.