Apple dévoile sa stratégie de modèles fondamentaux pour 2025 : une architecture innovante "end-cloud" conçue par Ruoming Pang
Apple Intelligence : Un aperçu complet de la technologie de modèles de base en 2025 Apple a récemment publié son rapport technique Apple Intelligence Foundation Language Models Tech Report 2025, une mise à jour importante après avoir dévoilé les détails de sa technologie de modèles de base AI pour la première fois l'année dernière. Cette publication est d'autant plus significative qu'elle survient peu de temps après le recrutement par Meta de Ruoming Pang, le responsable de l'équipe de modèles de base chez Apple, pour un salaire estimé à plusieurs dizaines de millions de dollars. Ce rapport semble être l'une des dernières contributions majeures de Pang chez Apple, avant de céder la direction de l'équipe à Zhifeng Chen. Le rapport présente une stratégie de modèles à double voie. La première voie est un modèle avec environ 3 milliards de paramètres, conçu spécifiquement pour fonctionner efficacement sur les appareils Apple tels que l'iPhone, l'iPad et le Mac. Ce modèle a été optimisé pour tirer parti des performances des puces conçues en interne par Apple. La seconde voie est un modèle serveur extensible, exécuté sur le cloud privé d'Apple, destiné à traiter des requêtes plus complexes. Cette architecture "edge + cloud" vise à équilibrer performance, efficacité et confidentialité, en laissant les tâches simples s'exécuter sur l'appareil local et les tâches complexes être gérées par des serveurs cloud assurant un niveau de protection de la vie privée équivalent. Pour améliorer l'efficacité de l'exécution du modèle sur l'appareil, les ingénieurs d'Apple ont introduit une innovation architecturale nommée "KV Cache Sharing". Cette technique divise le modèle en deux parties, dont l'une (constituant 37,5% des couches) partage le cache clé-valeur généré par l'autre partie (62,5% des couches). Cela réduit la mémoire requise pour le cache de 37,5% et accélère nettement la réponse lors de la génération du premier token. Sur le serveur, Apple a développé une nouvelle architecture Transformer appelée "Parallel-Track Mixture-of-Experts (PT-MoE)". Cette architecture décompose un grand modèle en plusieurs unités de traitement parallèles, appelées "tracks". Chaque track traite les informations de manière indépendante, ne synchronisant que ponctuellement, ce qui réduit considérablement les goulets d'étranglement de communication fréquents dans les grands modèles traditionnels et améliore l'efficacité de l'entraînement et de l'inférence. L'ajout d'une couche MoE dans chaque track permet également une expansion plus efficace du modèle, capable de traiter des tâches complexes avec une faible latence sans diminuer la qualité du modèle. En matière de capacités multimodales, le rapport révèle également les détails techniques de l'encodeur visuel utilisé par les modèles. Le modèle serveur s'appuie sur la variante ViT-g, tandis que le modèle sur l'appareil utilise la version plus légère ViTDet-L. Un mécanisme novateur baptisé "Register-Window" est mis en œuvre sur le modèle de l'appareil, lui permettant de capturer efficacement à la fois le contexte global des images et leurs détails locaux précis. Apple a maintenu sa politique stricte de protection de la vie privée lors de l'élaboration de ses données d'entraînement. Ces données proviennent principalement de trois sources : des données autorisées par des éditeurs, des informations publiques collectées par le web crawler d'Apple appelé Applebot, et des données synthétiques de haute qualité. Apple souligne qu'aucune donnée personnelle ou information d'interaction utilisateur n'est utilisée lors de l'entraînement. De plus, la compagnie respecte le protocole robots.txt, permettant aux webmasters de décider si leurs contenus peuvent ou non être utilisés pour l'apprentissage des modèles, garantissant ainsi les droits des propriétaires de contenu et la protection de la vie privée des utilisateurs. Le processus de filtrage et de purification des données a été rigoureusement appliqué, avec plus de 100 milliards de paires image-texte de haute qualité et 50 milliards de paires de légendes synthétiques traitées dans des pipelines avancés pour assurer l'intégrité des données. Pour permettre l'exécution efficace de ces modèles sur les appareils finaux, Apple a adopté des stratégies d'optimisation agressives. Le modèle sur l'appareil est compressé via la technique de "Quantization-Aware Training (QAT)" à 2 bits par poids, tandis que le modèle serveur utilise la "Adaptive Scalable Texture Compression (ASTC)" pour réduire la taille des poids à environ 3,56 bits par poids, en profitant des modules de décompression matérielle déjà intégrés aux GPU d'Apple. Les pertes de performance liées à la compression sont compensées par l'entraînement de correcteurs de rang inférieur (Low-Rank Adaptation, LoRA). Les évaluations de performance montrent que le modèle de l'appareil surpassant ou égalant des modèles open source de même taille tels que Qwen-2.5-3B et Gemma-3-4B sur des benchmarks standard comme MMLU. Quant au modèle serveur, il excelle par rapport à LLaMA 4 Scout mais reste en retrait face à des modèles de plus grande taille comme Qwen-3-235B et GPT-4. Dans des comparaisons menées par des juges humains, le modèle d'Apple s'est particulièrement distingué dans plusieurs zones linguistiques et tâches. Enfin, Apple a lancé un nouveau "Framework pour Modèles de Base" (Foundation Models framework), facilitant l'intégration directe du modèle de 3 milliards de paramètres sur les appareils. Hautement intégré à Swift, ce framework offre une fonction de "guided generation" qui permet aux développeurs de générer facilement des types de données structurés de Swift en quelques lignes de code. Le design de ce framework est aligné sur les principes d'Apple pour une IA responsable, incluant diverses barrières de sécurité pour aider les développeurs à créer des applications intelligentes et respectueuses de la vie privée. Ce rapport technique met en évidence l'engagement d'Apple à push les limites de l'IA tout en préservant la confidentialité des utilisateurs, un équilibre crucial pour l'avenir de la technologie.