Command Palette
Search for a command to run...
Gemma 3 技术报告
Gemma 3 技术报告
Abstract
我们推出Gemma 3,这是Gemma轻量级开源模型家族的多模态新成员,模型规模从10亿到270亿参数不等。Gemma 3引入了视觉理解能力,支持更广泛的语种覆盖,并具备至少128K tokens的长上下文处理能力。为应对长上下文导致的KV缓存内存激增问题,我们对模型架构进行了优化:通过提升局部注意力层与全局注意力层的比例,并缩短局部注意力的窗口跨度,有效降低了内存消耗。Gemma 3模型采用知识蒸馏方式进行训练,在预训练和指令微调版本上均显著超越Gemma 2。尤其值得一提的是,我们提出了一种创新的后训练方法,显著提升了模型在数学推理、对话交互、指令遵循及多语言处理等方面的能力。其中,Gemma 3-4B-IT在各项基准测试中已具备与Gemma 2-27B-IT相媲美的性能,而Gemma 3-27B-IT的表现则可与Gemini-1.5-Pro相当。所有Gemma 3模型均已向社区开源发布。
一句话总结
来自 Google DeepMind 的作者们推出了 Gemma 3——一个参数规模从 1B 到 27B 的多模态、长上下文、多语言开源语言模型家族,采用新颖的架构设计,将局部注意力与全局注意力的交错比例设为 5:1,通过将局部注意力跨度限制在 1024 个 token,显著降低 KV 缓存内存占用,从而支持 128K 上下文长度;模型通过定制化的知识蒸馏训练方法,结合专为图像输入设计的 SigLIP 视觉编码器与“全景扫描”(Pan and Scan)技术,实现了在数学、编程、指令遵循和多语言任务上与更大模型(如 Gemma2-27B-IT 和 Gemini-1.5-Pro)相媲美的性能,同时在消费级硬件上保持高效。
主要贡献
- Gemma 3 通过集成定制化的 SigLIP 视觉编码器,引入多模态能力,能够处理图像并将图像编码为 256 个软 token 序列,同时保持与标准消费级硬件的兼容性,并通过“全景扫描”(Pan and Scan)方法支持灵活的图像分辨率。
- 通过一种新颖的架构设计,将局部注意力层(1024 token 跨度)与全局注意力层以 5:1 的比例交错排列,模型实现了 128K token 的上下文长度,显著降低了推理过程中的 KV 缓存内存使用,而未牺牲性能。
- 通过一种新的后训练方法,结合知识蒸馏与针对性微调,Gemma 3-4B-IT 在数学、指令遵循和多语言基准测试中表现优于 Gemma 2-27B-IT,而 Gemma 3-27B-IT 在关键评估任务上与 Gemini-1.5-Pro 相当。
引言
作者介绍了 Gemma 3,这是一个开源的多模态语言模型,扩展了 Gemma 家族的能力,具备视觉理解、支持超过 100 种语言,并拥有至少 128K token 的上下文长度——显著提升了轻量级、可访问模型的能力。此前开源模型在扩展多模态与长上下文性能时面临挑战,尤其由于注意力机制中 KV 缓存规模持续增长,导致内存需求过高。为解决此问题,Gemma 3 采用了一种混合注意力架构,具有更高的局部与全局注意力层比例,同时缩短局部注意力跨度,从而在保持性能的同时降低内存开销。模型通过一种新颖的后训练方法,在数学、指令遵循、对话和多语言能力方面实现其规模下的最先进水平,其中 4B-IT 变体性能媲美 Gemma 2 的 27B-IT,而 27B-IT 版本在性能上接近 Gemini-1.5-Pro。发布时配套实施了严格的安全部署措施,包括预训练数据过滤、与 Google 安全政策对齐,以及针对性的保障评估,确保在能力扩展的同时实现负责任的部署。

数据集
- 预训练数据集由大规模文本与图像数据混合构成,总 token 预算分别为:27B 模型 14T,12B 模型 12T,4B 模型 4T,1B 模型 2T——略高于 Gemma 2,以容纳多模态内容的加入。
- 数据混合包含单语和并行多语言文本,语言分布通过受 Chung 等人(2023)启发的策略进行平衡,以提升对多种语言的覆盖能力。
- 采用严格的过滤流程,移除敏感信息、个人数据以及可能导致不安全或不当输出的内容。评估集经过去污染处理,防止数据泄露,同时基于 Sachdeva 等人(2024)的方法进行质量重加权,降低低质量数据的影响。
- 预训练过程中使用知识蒸馏,每 token 采样 256 个 logits,基于教师模型的概率分布。学生模型通过交叉熵损失学习教师模型在这些采样结果上的输出分布,未采样的 logits 设为零,并对分布进行重新归一化。
- 分词器基于 SentencePiece,采用字节级编码、数字拆分和保留空格——与 Gemini 2.0 相同——最终形成 262k 个 token 的词汇表,对非英语语言具有更好的平衡性。
- 模型部署时,通过 5,000 步的量化感知训练(QAT)生成量化版本,以非量化检查点为目标。训练数据被调整以匹配预训练与后训练阶段的分布。
- 支持三种量化格式:按通道 int4、按块 int4 和切换 fp8,表 3 报告了在 32,768 token 上下文长度下,原始(bfloat16)与量化模型的内存占用,包括 KV 缓存开销。
方法
作者为 Gemma 3 模型采用解码器-only 的 Transformer 架构,与之前版本一致,但引入了多项关键架构改进,以支持多模态、长上下文处理和更高效率。模型采用分组查询注意力(GQA),支持 RMSNorm 的后归一化与前归一化配置,并将 Gemma 2 中的软截断机制替换为受近期注意力归一化进展启发的 QK-norm。整体框架与早期 Gemma 版本保持结构相似性,同时融入了新型设计以提升性能与能力。
核心架构创新是支持高达 128K token 的长上下文,其中 1B 模型限制为 32K。这通过一种混合注意力机制实现,以 5:1 的比例交错排列局部与全局注意力层,起始于局部层。局部层采用滑动窗口自注意力,跨度为 1024 token,而全局层则关注完整上下文。为扩展全局注意力的位置编码范围,RoPE 基频从 10k 提升至 1M,而局部层仍保留 10k 频率。该设计通过仅在全局层中保留长距离注意力,显著降低了推理过程中的内存开销,缓解了长序列通常带来的 KV 缓存爆炸问题。
所有模型使用源自 Gemini 2.0 的共享分词器,词汇表包含 256k 个条目。预训练方法在 Gemma 2 基础上进行改进,调整数据混合以增强多语言与图像理解能力。所有模型均采用知识蒸馏训练,由更大的教师模型指导目标模型的学习。该方法在保持多样任务性能的同时,实现了高效的知识迁移。
为实现多模态能力,模型集成了基于 400M 参数 SigLIP 变体的视觉编码器,这是一种采用 CLIP 风格损失训练的视觉 Transformer。编码器处理尺寸为 896×896 的正方形图像,并在视觉助手数据上进行微调。为处理非正方形和高分辨率图像而不降低质量,系统在推理阶段采用“全景扫描”(Pan and Scan, P&S)方法。该自适应窗口算法将图像分割为等大小的非重叠块,每块重缩放至 896×896 并独立处理。该方法仅在必要时启用,也可禁用以加快推理速度,确保灵活性且不牺牲质量。
后训练阶段聚焦于提升指令遵循、推理、数学和对话能力,同时整合新的长上下文与视觉输入能力。作者采用改进的后训练流程,结合来自大型指令微调教师模型的知识蒸馏与强化学习阶段。该强化学习阶段使用多个奖励函数,优化帮助性、代码执行准确性、数学推理与多语言表现,同时最小化有害输出。奖励模型基于人类反馈数据训练,系统还整合了数学问题的真值奖励与代码执行反馈。数据过滤用于移除包含个人信息、不安全内容或幻觉模式的样本,同时保留促进事实性与负责任行为的子集。指令微调模型在文本开头使用 [BOS] token,生成结束使用 <end_of_turn>,与预训练模型使用的 不同。这一一致的分词方案确保了不同模型类型与训练阶段之间的兼容性。
实验
- 在 LMSys Chatbot Arena 上评估 Gemma 3 27B IT 模型,获得 Elo 得分为 1338,位列前 10 模型,优于 DeepSeek-V3(1318)和 LLaMA 3 405B(1257)等更大但无思考能力的模型,显著超越 Gemma 2(1220)。
- 在标准基准测试中,Gemma 3 IT 模型在数学、指令遵循和多语言任务上表现优于 Gemma 2,与 Gemini 1.5 相当,尤其在多语言与推理方面表现突出,尽管增加了视觉能力。
- 预训练能力探测显示,Gemma 3 模型在科学、代码、事实性、多语言、推理和视觉任务上全面超越 Gemma 2,多语言质量显著提升。
- 消融研究显示,将局部:全局注意力比例提升至 7:1 或减小滑动窗口尺寸,对困惑度影响极小,但 KV 缓存内存开销显著降低,降至全局仅模型的 15% 以下(相比全局模型的 60%)。
- 视觉编码器评估确认,更高输入图像分辨率可提升性能,而“全景扫描”(P&S)在涉及图像中文字和不同宽高比的任务中显著提升结果。
- Gemma 3 模型的遗忘率显著低于先前模型,近 24 倍的近似记忆比例,且在记忆输出中未检测到任何个人信息,表明具备强大的隐私保护能力。
- 基线安全评估显示,在对抗性查询下违规率极低,CBRN 知识评估表明在化学、生物、辐射和核领域表现有限。
- 在长上下文基准测试中,Gemma 3 模型在 RoPE 重缩放后能有效泛化至 128K token,但进一步扩展时性能下降。
- 在多模态基准测试中,Gemma 3 IT 模型在视觉理解与视频问答任务中表现优异,P&S 激活显著提升复杂视觉输入的性能。
作者为大于 1B 的模型使用含 4.17 亿参数的视觉编码器,而 1B 模型不使用视觉编码器。随着模型规模增大,嵌入与非嵌入参数均显著增长,27B 模型拥有 14 亿嵌入参数与 256 亿非嵌入参数。

作者在多个视觉与语言基准上对比 PaliGemma 2 与 Gemma 3 模型的性能,结果显示 Gemma 3 模型在大多数任务中均持续优于 PaliGemma 2,其中 27B Gemma 3 模型在多个类别中取得最高分。结果表明,Gemma 3 的改进在视觉-语言任务(如 DocVQA 和 TextVQA)中尤为显著,27B 模型分别取得 89.5 与 83.2 的得分,超越所有 PaliGemma 2 变体。

作者在多个基准上对比 Gemma 2 与 Gemma 3 模型的性能,结果显示 Gemma 3 模型通常优于其 Gemma 2 对应版本。例如,在 MMLU 上,27B Gemma 3 模型得分为 76.9,超过 27B Gemma 2 模型的 76.2;在 HumanEval 上,27B Gemma 3 模型得分为 87.8,远超 Gemma 2 的 51.8。

作者评估其指令微调模型在多个多模态基准上的表现,结果显示模型规模越大,性能通常越好。27B 模型在多数任务中取得最高分,尤其在 COCO 图像描述与 RealWorldQA 任务中提升显著,而 12B 模型在 SpatialSense VQA 任务中表现最佳。

作者在多个基准上对比 Gemma 2 与 Gemma 3 模型的性能,结果显示 Gemma 3 模型通常优于 Gemma 2 模型。具体而言,Gemma 3 27B 在 XQuAD Indic 和 XORQA in-xx 上取得最高分,而 Gemma 3 1B 与 4B 在多数任务上也优于其 Gemma 2 对应版本。