HyperAI

L'Université de Stanford lance le cours CS336, intitulé « La modélisation du langage à partir de zéro », une initiative pédagogique ambitieuse visant à fournir une compréhension approfondie des modèles de langage, piliers de la fusion moderne du traitement du langage naturel. Inspiré par les approches de construction de systèmes d'exploitation, ce programme de cinq unités guide les étudiants à travers l'intégralité du cycle de création d'un modèle, de la collecte et du nettoyage des données préliminaires, à la construction d'architecture de transformateurs, en passant par l'entraînement, l'évaluation et le déploiement. Contrairement aux cours d'intelligence artificielle standard, CS336 offre un support minimal, exigeant que les étudiants écrivent une quantité de code supérieure d'un ordre de grandeur à la normale pour maîtriser la logique sous-jacente. La réussite de ce cours exige des compétences techniques avancées. La maîtrise de Python est indispensable, car la majorité des travaux pratiques sont conçus dans cet environnement. Les participants doivent également posséder une solide expérience en apprentissage profond et en optimisation des systèmes, notamment la familiarité avec PyTorch et les concepts de mémoire. Sur le plan théorique, des notions de calcul, d'algèbre linéaire, de probabilités et de statistiques de base, ainsi qu'une compréhension fondamentale des principes de l'apprentissage automatique, sont requises. Le cours met l'accent sur l'exécution efficace des modèles de langage neuronaux sur des GPU et des machines multiples, impliquant des défis d'optimisation complexes. Le calendrier académique, débutant le 30 mars, couvre un spectre complet de sujets. Les premières semaines se concentrent sur la tokenisation, l'architecture de base et l'utilisation de PyTorch, suivies d'une exploration des alternatives à l'attention et des architectures à experts mélangés. Les étudiants abordent ensuite l'infrastructure matérielle, incluant les GPU, les TPUs et les optimisations de noyaux via Triton. Une partie significative du module traite de la parallélisation, des lois d'échelle et des stratégies d'inférence. Plus tard dans le semestre, l'accent est mis sur les données, y compris le filtrage, la déduplication et la génération de données synthétiques, ainsi que sur les techniques de post-entraînement telles que l'apprentissage par renforcement avec aide humaine (RLHF) et l'alignement multimodal. Des conférences invitent également des experts de l'industrie pour discuter des tendances actuelles. La méthodologie d'évaluation repose sur cinq travaux pratiques substantiels, dont les délais sont répartis tout au long du semestre, avec une date limite pour le dernier le 3 juin. Les étudiants sont encouragés à effectuer leurs tests de correction sur des processeurs locaux avant d'utiliser des ressources cloud pour les phases d'entraînement et de benchmarking, ce dernier nécessitant un accès GPU coûteux. Pour faciliter cet accès, le sponsor du cours, Modal, prend en charge une partie des coûts de calcul. Les participants doivent également suivre strictement le code d'honneur de l'université, notamment concernant la collaboration autorisée sous condition de soumission individuelle, et l'utilisation des outils d'intelligence artificielle. Bien que l'utilisation de l'IA pour des questions conceptuelles ou de codage de bas niveau soit tolérée, elle est strictement interdite pour résoudre directement les problèmes. De plus, l'utilisation d'autocomplétion par IA dans les environnements de développement est fortement déconseillée pour garantir une immersion profonde dans le contenu. En résumé, CS336 représente une opportunité unique pour les scientifiques et ingénieurs souhaitant maîtriser les fondations techniques de l'intelligence artificielle générative. En exigeant une implémentation complète plutôt qu'une simple utilisation d'outils préfabriqués, le cours vise à former la prochaine génération d'experts capables de concevoir des systèmes de langage robustes, efficaces et innovants.

Liens associés

Liens associés

Liens associés

Tutoriel En Ligne | Vitesse De Génération jusqu'à 4 Fois Plus Rapide : DiffusionGemma Peut Générer Simultanément Des Blocs De Texte Entiers, Avec Une Optimisation Continue Basée Sur Un Débruitage Parallèle multi-itérations.

Tutoriel En Ligne | Vitesse De Génération jusqu'à 4 Fois Plus Rapide : DiffusionGemma Peut Générer Simultanément Des Blocs De Texte Entiers, Avec Une Optimisation Continue Basée Sur Un Débruitage Parallèle multi-itérations.

Command Palette

Stanford CS336 : modélisation de langage à partir de zéro

Liens associés

Command Palette

Stanford CS336 : modélisation de langage à partir de zéro

Liens associés

Command Palette

Stanford CS336 : modélisation de langage à partir de zéro

Liens associés

Tutoriel En Ligne | Vitesse De Génération jusqu'à 4 Fois Plus Rapide : DiffusionGemma Peut Générer Simultanément Des Blocs De Texte Entiers, Avec Une Optimisation Continue Basée Sur Un Débruitage Parallèle multi-itérations.

Tutoriel En Ligne | Vitesse De Génération jusqu'à 4 Fois Plus Rapide : DiffusionGemma Peut Générer Simultanément Des Blocs De Texte Entiers, Avec Une Optimisation Continue Basée Sur Un Débruitage Parallèle multi-itérations.