7 个月前

LG AI Research Kyunghoon Bae Eunbi Choi Kibong Choi Stanley Jungkyu Choi Yemuk Choi Kyubeen Han Seokhee Hong Junwon Hwang Taewan Hwang

摘要

本技术报告介绍了EXAONE 4.0，该模型融合了非推理模式（Non-reasoning mode）与推理模式（Reasoning mode），在保留EXAONE 3.5卓越易用性的基础上，进一步具备EXAONE Deep所拥有的先进推理能力。为推动智能体式人工智能（agentic AI）时代的发展，EXAONE 4.0引入了关键特性，包括智能体工具调用能力，并将多语言支持扩展至西班牙语，现已支持英语、韩语和西班牙语三种语言。EXAONE 4.0模型系列包含两种规模：一款中等规模的32B参数模型，专为高性能场景优化；另一款小型1.2B参数模型，适用于设备端部署应用。实验结果表明，EXAONE 4.0在同类开源模型中展现出卓越性能，即便与前沿水平模型相比也具备较强的竞争力。目前，该系列模型已面向科研用途公开发布，可通过 https://huggingface.co/LGAI-EXAONE 免费下载使用。

一句话摘要

作者提出 EXAONE 4.0，一个包含 32B 和 1.2B 参数版本的双模式语言模型系列，融合非推理与推理能力，支持智能体工具调用和多语言（包括西班牙语），在开放模型与领先专有模型中均表现出色，其 32B 和 1.2B 版本已通过 Hugging Face 公开发布，供研究使用。

主要贡献

EXAONE 4.0 在单一模型中统一了用于快速、用户友好交互的 非推理模式 与用于深度、精准问题求解的 推理模式，显著提升了实际应用中的可用性与高级推理能力。
模型引入智能体工具调用功能，并将多语言支持扩展至西班牙语，同时采用混合全局-局部注意力架构，高效处理长达 128K 标记的上下文，在文档问答与 RAG 任务中表现优异。
EXAONE 4.0 在同规模开源模型中表现卓越，且在数学推理、编程与专家知识任务中与前沿模型保持竞争力，32B 与 1.2B 两个版本均已公开，供研究使用。

引言

作者利用 EXAONE 4.0 应对新兴智能体 AI 时代对多功能、高性能语言模型日益增长的需求。通过在单一模型中融合非推理模式（用于快速交互）与推理模式（用于复杂问题求解），该模型弥合了易用性与高级认知能力之间的鸿沟。以往工作在平衡现实适用性与深度推理方面面临挑战，常需为不同功能部署独立模型，同时在长上下文处理与多语言支持方面亦存在困难。EXAONE 4.0 通过混合注意力架构，高效处理 128K 标记上下文，集成智能体工具调用，并扩展多语言支持至西班牙语，且未牺牲英语或韩语性能。模型在推理、指令遵循与长上下文任务中达到最先进水平，同时在更大规模前沿模型中仍具竞争力。

数据集

EXAONE 4.0 的数据集由来自网络语料库、代码仓库和领域特定文档的多样化高质量数据构成，重点提升世界知识、推理能力与多语言支持。
预训练使用 14 万亿标记数据——是 EXAONE 3.5 32B 所用 6.5 万亿标记的两倍——数据源自大规模网络来源，经过严格筛选以提升认知行为与后训练性能。
监督微调（SFT）数据分为非推理与推理模式，并按五个领域组织：世界知识、数学/代码/逻辑、智能体工具使用、长上下文、多语言性。
在世界知识领域，筛选具有高教育价值的网络内容，对推理任务优先采用专业性高、难度大的数据。
数学、代码与逻辑数据受限于真实答案验证的难度；因此，对每个唯一查询使用多种多样响应以增强训练多样性，并通过仔细筛选防止退化，尤其在长代码响应中。
代码领域不仅涵盖问题求解，还包含来自代码语料库的全栈软件工程数据。
长上下文数据由网络来源构建，并重构韩语法律、行政与技术文档以支持多样化输入格式，通过系统性变化上下文长度与关键信息位置，训练全面理解能力。
智能体工具使用数据包含多轮、多步骤用户-代理交互及环境反馈，旨在模拟真实世界工具调用流程与迭代推理。
多语言数据支持韩语与西班牙语，融入文化相关的内容、本地教育与产业主题（尤其韩语），并翻译现有样本以确保自然流畅的对话。
统一模式训练采用 1.5:1 的标记比例（推理 : 非推理），该比例通过消融实验确定，以防止模型过度依赖推理行为。
第二轮微调使用来自代码与工具使用领域的高质量推理数据，以缓解领域不平衡并进一步提升性能。
数据集经过处理以确保一致性，元数据用于反映领域、任务类型与上下文长度，未提及显式裁剪——数据结构化设计支持长文本、多轮与上下文丰富的交互。

方法

EXAONE 4.0 模型采用基于 Transformer 的架构，相较于前代 EXAONE 3.5 在注意力机制与归一化策略上进行了多项关键改进。主要架构创新是采用混合注意力机制，以 3:1 的比例结合局部注意力与全局注意力。该设计区别于 EXAONE 3.5 所用的全全局注意力。局部注意力组件采用滑动窗口注意力，窗口大小为 4K 标记，该设置旨在最小化对短上下文性能的负面影响，同时实现高效的长上下文处理。如图所示，滑动窗口注意力将注意力限制在每个标记周围的固定大小窗口内，从而降低计算复杂度与内存需求。相比之下，全局注意力允许每个标记关注序列中所有其他标记，保留长距离依赖关系。混合方法在两者之间取得平衡，确保模型兼具局部连贯性与全局上下文感知能力。

模型的注意力机制进一步优化，对全局注意力省略了旋转位置编码（Rotary Position Embedding），以防止模型对序列长度产生偏差，维持一致的全局视角。对于局部注意力机制，模型未采用分块注意力（chunked attention），而是使用滑动窗口注意力，这是一种成熟的稀疏注意力方法，以理论稳定性与开源框架广泛支持著称。此选择确保实现稳健且易于集成。为缓解长上下文微调过程中短上下文场景下的性能下降，模型采用精心设计的数据选择方法与渐进式训练策略。

EXAONE 4.0 的另一项重要架构改进是层归一化的位置调整。模型采用 QK-Reorder-LN（查询-键重排层归一化）方法，即在输入查询与键之后应用 RMSNorm，并在注意力输出后再次应用。这与 EXAONE 3.5 所用的 Pre-LN 架构不同，后者在注意力与前馈块之前进行归一化。如框架图所示，QK-Reorder-LN 方法旨在更好地控制各层输出的方差，尽管计算成本更高，但仍能提升下游任务表现。归一化类型 RMSNorm 于 EXAONE 3.0 引入，仍在 EXAONE 4.0 中保留。

EXAONE 4.0 模型系列包含两种配置：32B 参数模型与 1.2B 参数模型。两者共享相同词汇表，由大致等量的韩语与英语标记，以及少量多语言标记组成。32B 模型的最大上下文长度通过两阶段过程扩展至 128K 标记：首先将预训练于 4K 上下文长度的模型扩展至 32K 标记，再进一步扩展至 128K 标记。每阶段均通过 Needle In A Haystack（NIAH）测试验证性能保持。对于 1.2B 模型，上下文长度扩展至 64K 标记，约为大多数 1B 参数级模型支持的典型最大长度的两倍。

EXAONE 4.0 的后训练阶段分为三个阶段：监督微调（SFT）、推理强化学习（RL）与偏好学习。SFT 阶段通过大规模数据扩展以高效提升性能。推理 RL 阶段采用一种名为 AGAPO（非对称采样与全局优势策略优化）的新算法，以增强模型推理能力。AGAPO 移除了 PPO 的裁剪目标，采用非对称采样引入负反馈，计算组优势与全局优势，并应用序列级累积 KL 惩罚。偏好学习阶段通过两阶段过程整合非推理与推理模式，优化正确性、简洁性、语言一致性与偏好得分。

实验

在六个基准类别上评估 EXAONE 4.0：世界知识、数学/编程、指令遵循、长上下文、智能体工具使用与多语言性。
在数学/编程基准（AIME 2025、HMMT FEB 2025、LIVECODEBENCH V5/6）上，EXAONE 4.0 32B 表现优异，无论在推理还是非推理模式下均超越 Qwen3 235B；EXAONE 4.0 1.2B 在推理模式下超越所有基线模型，仅略逊于 EXAONE Deep 2.4B。
在 GPQA-DIAMOND 基准上，EXAONE 4.0 32B 与 1.2B 均取得第二高分，展现出强大的专家级知识水平。
在长上下文基准（HELMET、RULER、LONGBENCH）上，EXAONE 4.0 模型表现具有竞争力，通过 YaRN 扩展上下文支持，使小模型实现 64K 标记推理。
在工具使用基准（BFCL-v3、TAU-BENCH）上，EXAONE 4.0 32B 达到或超过更大规模基线；EXAONE 4.0 1.2B 在 TAU-BENCH（零售）中取得测试模型中的最高分。
在多语言任务中，EXAONE 4.0 在韩语（KMMLU-PRO、KSM、KO-LONGBENCH）与西班牙语（MMMLU (ES)、MATH500 (ES)、WMT24++) 上表现强劲，高质量翻译通过 LLM-as-a-judge 评估。
推理预算消融实验表明，即使在 32K 推理预算下，性能下降也极小（多数模型 ≤5%），保持了竞争力。

作者使用表 3 展示 EXAONE 4.0 32B 在推理模式下多个基准的评估结果。结果显示，EXAONE 4.0 32B 在数学/编程与世界知识类别中表现强劲，在 AIME 2025 与 GPQA-DIAMOND 等关键基准上超越 Qwen 3 235B 与 DeepSeek R1-0528 等更大模型。模型在指令遵循与智能体工具使用方面也表现良好，尤其在 TAU-BENCH 零售任务中，尽管其规模小于前沿模型。

作者使用 HELMET 基准评估长上下文能力，涵盖六项任务，包括回忆、检索增强生成与摘要。结果显示，EXAONE 4.0 32B 在所有上下文长度下均达到高准确率，优于大多数中等规模模型，即使在 128K 上下文下仍表现强劲；而小规模模型如 EXAONE 4.0 1.2B 在较短长度下表现具有竞争力，但在 64K 及以上长度受限。

作者通过 YaRN 将上下文长度扩展至 32K 以上，评估小模型（包括 EXAONE 4.0 1.2B）在 HELMET 基准上的长上下文性能。结果显示，EXAONE 4.0 1.2B 在 32K 标记以内取得最高平均分，并在 64K 标记内保持强劲表现，优于该范围内的其他小模型。

作者使用表格对比 EXAONE 4.0 1.2B 在非推理模式下与多个小规模模型在多个基准上的表现。结果显示，EXAONE 4.0 1.2B 在多数类别中表现具有竞争力，尤其在数学/编程与多语言任务中表现突出，且在长上下文与指令遵循基准上优于其他模型。

作者使用多样化的基准评估 EXAONE 4.0 在多个领域（世界知识、数学/编程、指令遵循、长上下文、智能体工具使用、多语言性）的表现。结果显示，EXAONE 4.0 模型表现具有竞争力，尤其在数学/编程与世界知识任务中表现优异，32B 模型在多个类别中超越更大规模基线。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

LG AI Research Kyunghoon Bae Eunbi Choi Kibong Choi Stanley Jungkyu Choi Yemuk Choi Kyubeen Han Seokhee Hong Junwon Hwang Taewan Hwang

摘要

一句话摘要

主要贡献

EXAONE 4.0 在单一模型中统一了用于快速、用户友好交互的 非推理模式 与用于深度、精准问题求解的 推理模式，显著提升了实际应用中的可用性与高级推理能力。
模型引入智能体工具调用功能，并将多语言支持扩展至西班牙语，同时采用混合全局-局部注意力架构，高效处理长达 128K 标记的上下文，在文档问答与 RAG 任务中表现优异。
EXAONE 4.0 在同规模开源模型中表现卓越，且在数学推理、编程与专家知识任务中与前沿模型保持竞争力，32B 与 1.2B 两个版本均已公开，供研究使用。

引言

数据集

EXAONE 4.0 的数据集由来自网络语料库、代码仓库和领域特定文档的多样化高质量数据构成，重点提升世界知识、推理能力与多语言支持。
预训练使用 14 万亿标记数据——是 EXAONE 3.5 32B 所用 6.5 万亿标记的两倍——数据源自大规模网络来源，经过严格筛选以提升认知行为与后训练性能。
监督微调（SFT）数据分为非推理与推理模式，并按五个领域组织：世界知识、数学/代码/逻辑、智能体工具使用、长上下文、多语言性。
在世界知识领域，筛选具有高教育价值的网络内容，对推理任务优先采用专业性高、难度大的数据。
数学、代码与逻辑数据受限于真实答案验证的难度；因此，对每个唯一查询使用多种多样响应以增强训练多样性，并通过仔细筛选防止退化，尤其在长代码响应中。
代码领域不仅涵盖问题求解，还包含来自代码语料库的全栈软件工程数据。
长上下文数据由网络来源构建，并重构韩语法律、行政与技术文档以支持多样化输入格式，通过系统性变化上下文长度与关键信息位置，训练全面理解能力。
智能体工具使用数据包含多轮、多步骤用户-代理交互及环境反馈，旨在模拟真实世界工具调用流程与迭代推理。
多语言数据支持韩语与西班牙语，融入文化相关的内容、本地教育与产业主题（尤其韩语），并翻译现有样本以确保自然流畅的对话。
统一模式训练采用 1.5:1 的标记比例（推理 : 非推理），该比例通过消融实验确定，以防止模型过度依赖推理行为。
第二轮微调使用来自代码与工具使用领域的高质量推理数据，以缓解领域不平衡并进一步提升性能。
数据集经过处理以确保一致性，元数据用于反映领域、任务类型与上下文长度，未提及显式裁剪——数据结构化设计支持长文本、多轮与上下文丰富的交互。

方法

实验

在六个基准类别上评估 EXAONE 4.0：世界知识、数学/编程、指令遵循、长上下文、智能体工具使用与多语言性。
在数学/编程基准（AIME 2025、HMMT FEB 2025、LIVECODEBENCH V5/6）上，EXAONE 4.0 32B 表现优异，无论在推理还是非推理模式下均超越 Qwen3 235B；EXAONE 4.0 1.2B 在推理模式下超越所有基线模型，仅略逊于 EXAONE Deep 2.4B。
在 GPQA-DIAMOND 基准上，EXAONE 4.0 32B 与 1.2B 均取得第二高分，展现出强大的专家级知识水平。
在长上下文基准（HELMET、RULER、LONGBENCH）上，EXAONE 4.0 模型表现具有竞争力，通过 YaRN 扩展上下文支持，使小模型实现 64K 标记推理。
在工具使用基准（BFCL-v3、TAU-BENCH）上，EXAONE 4.0 32B 达到或超过更大规模基线；EXAONE 4.0 1.2B 在 TAU-BENCH（零售）中取得测试模型中的最高分。
在多语言任务中，EXAONE 4.0 在韩语（KMMLU-PRO、KSM、KO-LONGBENCH）与西班牙语（MMMLU (ES)、MATH500 (ES)、WMT24++) 上表现强劲，高质量翻译通过 LLM-as-a-judge 评估。
推理预算消融实验表明，即使在 32K 推理预算下，性能下降也极小（多数模型 ≤5%），保持了竞争力。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

EXAONE 4.0：融合非推理与推理模式的统一型大语言模型

LG AI Research Kyunghoon Bae Eunbi Choi Kibong Choi Stanley Jungkyu Choi Yemuk Choi Kyubeen Han Seokhee Hong Junwon Hwang Taewan Hwang31 more

摘要

一句话摘要

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

EXAONE 4.0：融合非推理与推理模式的统一型大语言模型

LG AI Research Kyunghoon Bae Eunbi Choi Kibong Choi Stanley Jungkyu Choi Yemuk Choi Kyubeen Han Seokhee Hong Junwon Hwang Taewan Hwang31 more

摘要

一句话摘要

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

EXAONE 4.0：融合非推理与推理模式的统一型大语言模型

LG AI Research Kyunghoon Bae Eunbi Choi Kibong Choi Stanley Jungkyu Choi Yemuk Choi Kyubeen Han Seokhee Hong Junwon Hwang Taewan Hwang31 more

摘要

一句话摘要

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

LG AI Research Kyunghoon Bae Eunbi Choi Kibong Choi Stanley Jungkyu Choi Yemuk Choi Kyubeen Han Seokhee Hong Junwon Hwang Taewan Hwang

LG AI Research Kyunghoon Bae Eunbi Choi Kibong Choi Stanley Jungkyu Choi Yemuk Choi Kyubeen Han Seokhee Hong Junwon Hwang Taewan Hwang

LG AI Research Kyunghoon Bae Eunbi Choi Kibong Choi Stanley Jungkyu Choi Yemuk Choi Kyubeen Han Seokhee Hong Junwon Hwang Taewan Hwang