HyperAI
Back to Headlines

Apple et la construction de ses modèles de langage : données soigneusement sélectionnées et supervision humaine au cœur

il y a 9 jours

Apple a développé deux modèles de base, dont l’un est déployé sur serveur et l’autre exécuté localement sur les appareils. Bien que les détails sur le modèle serveur soient limités, le modèle sur appareil compte environ 3 milliards de paramètres. L’accent est mis sur la qualité des données et le respect de la vie privée, contrairement à certaines entreprises qui utilisent des ensembles de données massifs et parfois non contrôlés. Apple s’appuie sur un processus de collecte et de traitement rigoureux, avec une attention particulière aux contenus de qualité, diversifiés et multilingues. Le processus de collecte de données est géré par Applebot, un outil de scraping web interne. Ce crawler explore des centaines de milliards de pages web, tout en respectant les protocoles robots.txt, permettant aux éditeurs de bloquer l’utilisation de leurs contenus pour l’entraînement des modèles. Apple emploie des techniques avancées, comme le rendu sans navigateur, pour extraire efficacement le texte, les métadonnées et le contenu JavaScript. Des modèles de langage sont également intégrés pour traiter des documents spécialisés, ce qui améliore la précision par rapport aux méthodes traditionnelles. La filtration des données est une étape cruciale. Apple utilise des signaux basés sur des modèles, adaptés à chaque langue, pour conserver les éléments pertinents tout en éliminant le contenu inapproprié, les informations personnelles ou les messages dangereux. Aucune donnée privée des utilisateurs n’est utilisée pour l’entraînement, ce qui contraste avec d’autres plateformes qui s’appuient sur les interactions des utilisateurs. Au lieu de cela, Apple licence des données auprès de publications, utilise des ensembles de données open source et génère des données synthétiques. Pour les modèles multimodaux, cela inclut plus de 10 milliards de paires image-texte, 175 millions de documents intégrés avec 550 millions d’images et 7 milliards de légendes synthétiques. L’approche d’Apple vise à équilibrer la performance et la responsabilité. En augmentant le poids des données en code, mathématiques et multilingue, les modèles évitent de sur-apprendre les langues à faible ressource. Cette stratégie permet d’obtenir des modèles performants et efficaces, capables de surpasser des modèles comme Gemma-2–2B. Une fois entraînés, les modèles passent par une phase de raffinement avec une supervision humaine. Apple combine le Supervised Fine-Tuning (SFT) et le Reinforcement Learning from Human Feedback (RLHF), intégrant des exemples humains et des données synthétiques. Des experts natifs de chaque langue contribuent à la création de prompts pour garantir une utilisation naturelle. Des agents d’intelligence artificielle aident les annotateurs à produire des données structurées pour le traitement des outils. Des techniques basées sur des modèles détectent la qualité des réponses, tandis que des données adverses réduisent les erreurs ou les hallucinations. La récompense du modèle est basée sur les préférences humaines, évaluées pour leur utilité et leur conformité aux instructions. Cette approche, combinée à des signaux basés sur des règles, permet des améliorations continues. L’infrastructure est optimisée pour réduire les coûts et l’utilisation de ressources. Des retours d’utilisateurs et des tests de sécurité (red teaming) sont utilisés pour surveiller et améliorer les modèles après leur déploiement. Cette intégration de l’éthique des données et de la supervision humaine reflète une philosophie plus large : construire de la confiance par la transparence et la responsabilité. Dans un secteur marqué par des scandales liés aux données, l’approche d’Apple pourrait inspirer des changements dans l’industrie.

Related Links