HyperAIHyperAI

Command Palette

Search for a command to run...

控制台

坚持提前监管,离开 OpenAI 后,Dario Amodei 将 AI 安全写入公司使命

3 天前
Featured Image

在当前由算力竞赛、巨头对抗与资本加速叠加的 AI 周期中,Anthropic 联合创始人兼 CEO Dario Amodei 是硅谷极少数、却不可忽视的「逆行者」。当绝大多数科技公司将「更快迭代、更强能力」作为核心目标时,他始终坚持一个越来越难被忽视的判断:「安全性不是刹车,而是唯一能让行业继续前进的制度性护栏。」

在 Dario Amodei 看来,未来五年,大模型能力的爆炸式增长将不可避免地超过社会治理机制的演化速度。若缺乏自上而下的安全治理框架,AI 发展将陷入危险的「复杂度反噬周期」—— 技术增长速度彻底压倒治理体系,最终使风险累积成系统性威胁,不仅可能导致单个企业的危机,更可能冲击整个社会的运行秩序。

回溯到这场技术与治理分歧的起点,「安全从来不是创新的对立面,而是 AI 走向国家基础设施后,唯一能保持持续演进的底层逻辑」,这一核心主张似乎印证着一个事实:Dario Amodei 推动的不是「安全路线」,而是 AI 时代的「逻辑协议」,其为技术扩张预先设定可控、可审、可止的运行前提,从而避免能力增长被一次系统性风险突然打断。这一观点本质上是在为 AI 的长期商业化扩展提供稳定的底层支撑,而非站在创新的对立面为其降温降速。

从 OpenAI 离开,到创建 Anthropic:价值观分裂后的「独立宣言」

Dario Amodei 与「安全路线」的深度绑定,最早可追溯至他就职 OpenAI 期间与公司主张理念的分歧。

2020 年前后,随着 GPT 系列模型的快速商业化,OpenAI 在技术迭代与商业化推进上不断加速,但与之匹配的风险管控机制和治理体系却尚未明确约束。

2023 年,《纽约时报》对 OpenAI 等公司提起版权侵权诉讼后,当时 OpenAI 内部已有部分研究者对商业化节奏的过快感到不安,而 Dario Amodei 早在几年前便有所洞见,也是最早希望在公司内部建立更严格风险评估机制的核心人物之一。他主张在模型迭代前增加风险预判环节,在商业化落地前完善安全测试流程,但这些偏向制度性建设的建议,逐渐被公司日益增长的商业化压力所压制。

在内部制度性建议屡屡受挫后,2021 年 Dario Amodei 带着一批核心研究人员正式离开 OpenAI,创立了 Anthropic 。这一次出走创业的背后,不难窥探出双方在安全为先与商业转化之间的理念失衡。

Dario Amodei 早期任职 OpenAI 的合影,从左至右第 3 位,图源:technologyreview.com

Anthropic 的使命声明清晰地体现了这一观点差异,没有沿用行业常见的「build powerful AI(打造强大的 AI)」,而是明确提出「We build reliable, interpretable, and steerable AI systems(开发可靠、可解释且可调控的 AI 系统)」。

Anthropic 官网对于公司理念的介绍

彼时,硅谷的主流叙事仍围绕「能力即优势」展开,几乎所有公司都在比拼模型参数规模、算力投入和应用落地速度,而 Dario Amodei 却选择了一条反向路径 ——  将「可控性」视为未来竞争的核心。这种看似逆流的选择,为 Anthropic 后来整套安全战略的落地,奠定了全部的理念基础。

「安全即战略」的底层逻辑:能力上升,治理必须同步上升

不同于很多科技公司将「伦理安全」当做装点技术报告的附加信息,亦或是拉拢用户的卖点,Dario Amodei 所推动的是一种带有极强工程化特征的「安全战略框架」。他在美参议院就 AI 风险与监管发表的书面证词里强调:「我们无法完全预测下一代模型的全部能力,因此必须在构建前设置分级的制度护栏,而不是在风险发生后再补救。」

证词部分原文内容,Amodei 认为需通过立法、供应链安全、严格测试审核等方式监管 AI,同时强调行业与政府需动态协作,避免僵化规则阻碍创新。来源 judiciary.senate.gov

基于这一理念,Anthropic 内部构建了一整套「能力 — 安全共演(Co-evolution)模型」,将安全治理嵌入技术研发的每一个环节:

* 能力预测(Capability Forecasting):通过历史数据与算法模型,提前评估下一代大模型可能涌现的新能力,尤其是那些可能带来潜在风险的能力,如更精准的虚假信息生成、更复杂的代码编写(可能被用于网络攻击)等;

* 分级安全制度(Safety Levels):借鉴核能行业的风险等级体系,根据模型的能力强度与应用场景,划分不同的安全等级,每个等级对应不同的测试标准、使用权限和监控机制;

* 外部红队与可解释性要求:强制引入跨机构、跨领域的外部红队进行攻击测试,同时要求模型对关键决策过程提供可解释的逻辑链条,避免「黑箱决策」带来的风险;

* Go/No-go gates:在模型迭代的关键节点设置「准入 / 禁止」闸门,只有当安全测试达标、风险评估通过后,才允许进入下一阶段的开发或部署,明确「能控制才允许扩展」的原则。

这套系统化的安全结构,让 Dario Amodei 成为美国政策制定者眼中「更懂治理的科技 CEO」。 2023 年 7 月,美国参议院举办 AI 洞察论坛时,特别邀请他参与听证,他提出的「分级监管」「提前预判风险」等观点,成为后来《AI 安全法案》讨论中最常被引用的技术声音之一。

参议院国土安全委员会对政府人工智能采购的全面法案进行审议,表示「对于不同风险等级的 AI 用例,机构将根据分类结果采取不同的管理措施」
法案明确「各机构在采购、开发和部署 AI 之前,必须识别与评估其潜在风险(identify and evaluate risks),并建立用于持续监测、测试和缓解风险的制度」

如果说硅谷多数公司把安全当作装点门面的 PR 资产,那么 Dario Amodei 则把它当作「驱动产业长期发展」的操作系统 —— 他坚信,只有建立稳定的安全框架,AI 才能真正从「实验室技术」走向「社会基础设施」。

为什么坚持「提前监管」?技术已进入非线性增长区间

在 Dario Amodei 的所有观点中,最具争议的并非技术层面的对齐方法,而是他对监管的态度:「监管必须提前到来,而不是等风险爆发后再被动响应。」这一主张与硅谷长期以来「少监管、多自由」的文化形成鲜明对立,但他的理由却扎根于对 AI 技术发展规律的深刻洞察,主要来自三个维度:

模型能力呈指数增长,而监管是线性的

从 2020 年,参数约 1750 亿的 GPT-3,到 2023 年能力大幅跃升的 GPT-4(参数规模未公开,多方推测为 5 千亿–1 万亿级别),再到 2024 年 Anthropic 的 Claude 3(在多个基准测试中超越前代模型),每一代大模型的能力提升都呈倍数级,且涌现出许多前代模型不具备的「意外能力」—— 例如自主优化代码、理解复杂法律文本、生成接近专业水平的科研论文等。这种增长是「非线性」的,往往超出行业预期。

但监管体系的建立却需要经历调研、讨论、立法、落地等多个环节,周期通常以年为单位,呈现「线性」特征。如果监管始终跟在技术后面跑,就会形成「能力已到、治理未到」的真空期,风险便可能在这段真空期内累积。

风险不是应用层问题,而是基础能力问题

许多人认为,AI 风险可以通过「应用层管控」来解决,例如在具体场景中设置过滤规则。但 Dario Amodei 指出,大模型的风险本质上是「基础能力问题」—— 像杀伤性信息生成、自动化生物风险(如生成危险生物实验方案)、网络渗透能力(如编写恶意代码)等,都源于模型本身的基础能力,而非应用场景。

Reuters 相关报道

这意味着,即使在某个应用场景中堵住了一个风险点,模型仍可能在其他场景中利用基础能力制造新风险。因此,仅靠应用层管控无法根治风险,必须在基础模型层面就通过监管建立安全门槛。

市场竞争无法自我约束能力扩张

Dario Amodei 多次在行业会议中强调:「AI 行业的竞争具有压强效应—— 没有任何一家厂商会主动放慢能力迭代的速度,因为一旦落后,就可能被市场淘汰。」在这种竞争环境下,「自我约束」几乎是不可能的,企业往往会优先追求能力提升,而将安全测试压缩到最低限度。

因此,他认为,监管必须成为「外部强制约束」,为整个行业设定统一的安全底线,避免企业陷入劣币追逐良币的恶性循环 —— 即「你不做安全测试,我也不做,否则成本更高、速度更慢」。

这些理由背后,是 Dario Amodei 对 AI 时代的一个核心判断:AI 不是互联网时代的「内容产品」(如社交软件、视频平台),而是能直接影响真实世界决策与风险结构的「基础设施技术」,就像电力、交通一样。对于这类技术,提前监管不是「限制创新」,而是「保障创新可持续」。

技术路线:Constitutional AI 不是修补,而是重构模型行为机制

如果说 OpenAI 的标签是「商业化领先」,Meta 的标签是「开源生态主导」,Google DeepMind 的标签是「科研与工程双轨」,那么 Anthropic 的标签则非常明确:工程化对齐(Alignment-as-Engineering) —— 即通过系统化的工程方法,让 AI 模型的行为与人类价值观保持一致。其中最具代表性的成果,就是 Dario Amodei 主导研发的 Constitutional AI(CAI,宪法 AI)。

论文链接:https://arxiv.org/abs/2212.08073

Constitutional AI 的核心思想颠覆了传统的对齐思路:模型不是依赖人工标注者的主观价值判断来调整行为,而是按照一套公开、可审计、可复制的「宪法原则」进行自我校准。这套「宪法」由 Anthropic 团队联合伦理学家、法律专家、社会科学家共同制定,包含数百条基本原则,例如「不生成有害信息」「尊重多元价值观」「对不确定的问题坦诚说明」等。

在具体落地中,Constitutional AI 通过两个关键步骤实现对齐:首先,让模型根据「宪法」对自己生成的内容进行「自我批判」,找出不符合原则的地方;然后,让模型基于「自我批判」的结果进行修正,不断优化输出内容。这种方法带来了三大关键影响:

* 减少 RLHF 的价值偏差:传统的 RLHF(基于人类反馈的强化学习)依赖人工标注者的判断,但不同标注者可能存在价值观偏差(如文化背景、个人立场差异),而 Constitutional AI 基于统一的「宪法原则」,大幅降低了这种偏差;

* 对齐过程透明化、可溯源:「宪法原则」是公开的,模型的自我校准过程也可记录、可审计,外界能清晰了解模型为何做出某种决策,避免了「黑箱对齐」;

* 使安全成为「系统性工程」,而不是人类直觉的补丁:传统安全措施往往是「哪里出问题,哪里补漏洞」,而 Constitutional AI 从底层重构了模型的行为机制,让安全成为模型的「本能」,而非外部附加的补丁。

这一技术路线直接奠定了 Claude 系列模型在 2024–2025 年进入生产级应用的关键优势 ——更稳、更可控、更容易企业化规模部署。许多金融机构、法律事务所、政府部门在选择大模型时,都将 Claude 的「可控性」作为核心考量因素,因为这些领域对风险的容忍度极低,需要模型输出稳定、可预测。

Claude 职责声明,明确 Claude 3 模型系列在网络安全知识和自主性等关键指标上均有所提升

在全球 AI 产业格局中,Amodei 的策略进一步凸显价值。随着模型能力扩展至金融风险评估、医疗诊断等高价值场景,对安全与可靠性的需求日益迫切。

与 OpenAI 快速商业化、 Meta 推行开源战略、 DeepMind 专注论文与 AGI 探索不同,Anthropic 将安全视为进入关键市场的底座,通过内部安全评估工具外部化,推动高标准行业准入,并预判未来会形成「安全即服务(Safety-as-a-Service)」赛道。

政策与监管层面亦支撑这一逻辑:欧盟《AI 法案》及美国联邦采购要求高风险 AI 满足严格安全标准,使安全从道德问题演化为政治与市场需求。虽然 Anthropic 市场份额仍小于 OpenAI,但在政策影响力、核心行业渗透率与安全标准制定权上,其战略地位不断上升,凸显了 Amodei 的少数派非弱势特质——通过制度与技术塑造 AI 产业格局,而不仅仅依靠市场占有率。

批评与争议:安全会不会成为行业垄断的工具?

尽管 Dario Amodei 的「安全路线」看似是一种理想化的未来发展趋势,但也面临着来自行业内外的强烈反对声。这些争议主要集中在三个方面,凸显了 AI 安全问题的复杂性:

安全可能成为「限制竞争」的理由

Meta 首席科学家 Yann LeCun 是最公开反对「过度安全监管」的技术领袖之一。他多次在社交媒体和行业会议中暗示,Dario Amodei 主张的「提前监管」和「高安全标准」,本质上是「为新创公司设置高门槛」—— 大型公司有足够的资金和资源投入安全研发,而新创公司可能因无法承担安全成本而被淘汰,最终导致行业垄断。

LeCun 表示:「人工智能必须由少数几家公司垄断,并受到严格的监管」是末日论者的妄想

LeCun 的观点得到了不少 AI 新创公司的支持。他们认为,当前的安全标准尚未统一,若过早推行严格监管,可能会让「安全」成为巨头排挤中小玩家的工具。

安全无法量化,容易成为空洞口号

另一个关键争议点是「安全的可衡量性」。目前,AI 安全的评估标准高度碎片化,各家公司对于「什么算安全 AI」的判断标准并不一致;「安全测试、评估、红队(red-teaming)」的方式、强度、披露透明度都差异很大,甚至连「什么是安全的 AI」都没有统一答案。例如,Anthropic 认为「模型能自我校准」是安全,OpenAI 可能认为「通过外部红队测试」是安全,而政府机构可能更关注「模型不生成有害信息」。

这种碎片化导致「安全」难以量化,容易成为企业「装点门面」的空洞口号 —— 一家公司可以宣称自己的模型「很安全」,但却无法用行业公认的标准证明。批评者认为,在标准统一前,过度强调「安全」反而会误导市场,让用户误以为 AI 风险已被解决。更有学术研究指出,如果对 AI 发展采取过度/不灵活的监管 (或一刀切式规则),可能抑制创新。

英国蒂赛德大学团队在研究论文中指出「人们对人工智能的过度监管可能会抑制创新」

文章链接:https://arxiv.org/abs/2104.03741

技术与监管存在天然脱节

许多技术专家指出,预测大模型的能力仍是一个未解决的科学难题 —— 即使是最顶尖的研究者,也无法准确预判下一代模型会涌现出哪些能力,以及这些能力可能带来哪些风险。在这种情况下,「提前监管」可能会出现两种问题:要么「误判风险」,将无害的技术创新当作风险来限制;要么「漏判风险」,没能预判到真正的危险点,导致监管失效。

Dario Amodei 对这些争议并非没有回应。他承认安全标准需要「动态调整」,也支持政府为新创公司提供安全研发补贴,以降低竞争门槛。但他始终坚持:「即使存在争议,也不能等到风险爆发后再行动 —— 相比『监管过度』,『监管缺失』的代价更大。」

这些争议反而凸显出一个事实:AI 安全不只是技术科学问题,更是政治经济问题 —— 它涉及到产业格局、竞争规则、全球权力分配等多个维度,不可能有「完美答案」,只能在争议中不断探索平衡。

Amodei 推动的不是「安全路线」,而是 AI 时代的「逻辑协议」

如果回顾互联网的发展历史,我们会发现,互联网之所以能从「学术工具」发展为「全球基础设施」,核心在于它建立了一套统一的底层协议 ——TCP/IP(传输控制协议 / 网际协议)、 DNS(域名系统)、 HTTPS(超文本传输安全协议)等。这些协议不涉及具体的应用场景,却为所有互联网服务提供了「通用语言」,让不同设备、不同平台、不同地区的用户能顺畅连接。

在笔者看来,Dario Amodei 推动的不是简单的「安全路线」,而是试图为 AI 时代建立类似的「逻辑协议」—— 一套统一、安全、可审计、可复制的治理基础设施。这套「协议」的核心不是「限制 AI 能力」,而是「让 AI 能力在可控的框架内发挥价值」。

他想做的不是拉高行业门槛,也不是放缓产业速度,而是建立一种「全球都能理解、复制、沿用的 AI 安全制度」—— 就像 TCP/IP 协议让互联网实现「互联互通」一样,AI 的「治理协议」能让全球的 AI 技术在安全的基础上实现「协同发展」,避免因标准不统一导致的风险扩散和资源浪费。

这不是技术悲观主义,而是产业工程学 —— 它承认 AI 存在风险,但相信通过制度设计可以控制风险;它不否认 AI 的创新价值,但主张创新必须有边界。正如互联网在协议化后迎来指数级扩张一样,AI 的第二阶段,从「技术爆发」到「稳定应用」,也许正需要一套「治理协议」作为支点。

写在最后

当 AI 逐渐成为影响生产力、军事能力与国家安全的核心资产时,「安全」就不再是一个技术问题,而是一个关乎全球秩序的战略问题。未来,谁能定义「安全」,或许就能定义未来 AI 产业的规则;谁能建立「安全框架」,或许就能在全球技术竞争中占据主动。

Dario Amodei 或许不是这场变革中唯一的引路人,但他无疑是最清醒、也最有争议的一个 —— 他的价值不在于提出了「完美方案」,而在于迫使整个行业和全球社会正视一个问题:AI 要走向未来,不能只靠技术热情,更要靠制度理性。而这,正是 AI 从「颠覆性技术」变为「建设性力量」的关键所在。

参考链接:
1.https://www.anthropic.com/news/claude-3-family
2.https://www.reuters.com/business/retail-consumer/anthropic-ceo-says-proposed-10-year-ban-state-ai-regulation-too-blunt-nyt-op-ed-2025-06-05
3.https://arxiv.org/abs/2212.08073
4.https://arstechnica.com/ai/2025/01/anthropic-chief-says-ai-could-surpass-almost-all-humans-at-almost-everything-shortly-after-2027/
5.https://www.freethink.com/artificial-intelligence/agi-economy

坚持提前监管,离开 OpenAI 后,Dario Amodei 将 AI 安全写入公司使命 | 资讯 | HyperAI超神经