Stanford CS336:从零开始构建语言模型
斯坦福大学推出全新的 CS336 课程“从零开始构建语言模型”,旨在填补人工智能与工程领域的技能缺口。随着自然语言处理技术的飞速发展,深入理解语言模型的构建原理已成为科学家的必备技能。本课程摒弃了传统教学中过度依赖封装框架的模式,要求学生在几乎没有代码脚手架的情况下,独立完成从数据收集清洗、Transformer 模型构建、模型训练到评估部署的全过程。 该课程具有极高的实施密度和难度。学生必须精通 Python 编程及软件工程,具备深度学习与系统优化经验,熟练掌握 PyTorch 框架并理解内存层级等系统概念。此外,课程还要求学生具备扎实的微积分、线性代数、概率统计及机器学习基础。作为一门五学分的课程,其代码编写量远超普通课程,需要学生投入大量时间。 教学日程从三月底开始,涵盖分词、架构设计、注意力机制、多机并行计算、内核优化以及推理部署等核心主题。后期课程将深入探讨数据过滤、合成数据生成及对齐技术(如 SFT 和 RLHF)。课程特别强调学术诚信,允许使用生成式 AI 回答低层编程问题,但严禁直接利用 AI 生成解决方案或依赖 AI 自动补全功能。学生需自行完成独立作业,并在作业中声明合作成员。课程由 Modal 提供计算资源支持,学生也可通过云服务商自行获取 GPU 算力。整个课程通过一系列实践作业,帮助工程人员真正掌握大模型落地的全链路技术细节。
