HyperAIHyperAI

Command Palette

Search for a command to run...

人们用AI在做什么?答案藏在100万亿token背后

2025年底,硅谷风投机构a16z与AI推理平台OpenRouter联合发布的《State of AI》报告,基于平台上超过100万亿token的真实用户交互数据,揭示了大语言模型在实际应用中的深层演变。这份报告恰逢OpenAI发布其推理模型o1一周年,标志着AI从单次生成迈向多步骤推理的范式跃迁,而这一年来的变化远超预期。 报告的核心价值在于其数据来源的广泛性与客观性。OpenRouter作为连接数百个大模型的统一接口,能够追踪开发者与终端用户在真实场景中的模型选择、任务类型与成本支出,且不涉及任何用户提示或输出内容,仅依赖时间戳、模型类型、token消耗与工具调用等元数据,从而实现对AI使用行为的宏观洞察。 在模型格局上,开源模型的崛起尤为显著。到2025年末,其市场份额已接近30%,一年间增长迅猛。中国开发的模型如DeepSeek、通义千问(Qwen)和月之暗面的Kimi系列,从海外开发者眼中的“陌生面孔”跃升为高频使用对象,全年平均占中国开源模型使用量的13%,与非中国开源模型基本持平,形成中美并立的开源新生态。闭源模型仍占70%左右,尤其在企业级与高监管领域保持优势,形成“闭源定性能上限,开源提效率与灵活性”的双轨结构。 在模型规模方面,中型模型(15B至70B参数)成为最大增长点。2024年11月Qwen2.5 Coder 32B发布后,Mistral Small 3、GPT-OSS 20B等相继入场,满足用户对“够聪明又不贵不慢”的平衡需求。小型模型使用持续下降,大型模型虽有增长,但未现垄断,市场呈现多极化。 使用场景的分布令人意外。在开源模型中,角色扮演类任务占token消耗超一半,编程次之。这反映出用户将AI视为互动叙事伙伴,用于创作、游戏、虚拟对话等非生产性场景。其背后原因在于开源模型可自由微调,规避商业安全过滤,更易实现情感细腻与风格灵活。而当纳入闭源模型,编程任务占比从年初11%飙升至50%以上,成为增长最快、竞争最激烈的领域。Anthropic的Claude系列长期主导,OpenAI份额从2%升至8%,Google稳定在15%,新势力如MiniMax、Z.AI、Qwen快速渗透,显示编程正成为AI战略高地。 更关键的转变是“Agentic推理”的兴起。模型不再仅作单轮生成,而是作为自动化系统中的智能代理,执行多步规划、调用工具、维持长上下文。数据显示,推理优化模型(如o1、GPT-5、Claude 4.5、Gemini 3)的token占比已超50%。工具调用持续上升,平均提示长度一年内增长近四倍,输出长度翻三倍,主因是编程任务对代码库、文档等长输入的依赖。这标志着AI正从“创意生成器”转向“分析引擎”。 地理分布显示AI使用日益全球化。亚洲份额从13%升至31%,北美虽仍最大,但占比不足一半;欧洲稳定在15%-20%。语言上,英语占82.87%,中文居第二,俄语、西班牙语、泰语亦有可观使用。成本方面,价格弹性极低——降价10%仅带来0.5%-0.7%的使用增长,表明市场尚未完全商品化,差异化仍具价值。 报告提出“灰姑娘水晶鞋效应”:当新模型恰好匹配长期未被满足的高价值任务时,会形成强烈锁定,用户系统围绕其构建,难以迁移。Gemini 2.5 Pro与Claude 4 Sonnet的高留存率印证了这一点。而GPT-4o Mini的单一高粘性队列则显示,首次实现“完美契合”的窗口极为短暂。相反,未建立初始匹配的模型(如Gemini 2.0 Flash)则始终难以留住用户。 总结而言,AI生态已进入多模型共存时代,使用场景超越生产力工具,Agentic推理成为主流,全球化与去中心化加速,而真正决定胜负的,是能否在特定任务上实现“精准契合”。报告虽受限于单一平台数据,但其揭示的行为模式,为理解AI真实演进提供了关键镜像。

الروابط ذات الصلة