100万亿token揭示AI真实用途:人类正在用AI做这些事
2025年12月,a16z与AI推理平台OpenRouter联合发布《State of AI》报告,基于其平台上超过100万亿token的真实用户行为数据,揭示了大语言模型在实际应用中的深刻变化。报告以OpenAI发布o1推理模型一周年为背景,展现AI使用范式正从单次生成向多步骤、工具化、代理式推理演进。 数据显示,开源模型(OSS)的市场份额在一年内从几乎可忽略增长至近30%,中国模型如DeepSeek、通义千问、Kimi等贡献显著,全年平均占比约13%,与非中国开源模型基本持平,形成中美并立格局。闭源模型仍占70%左右,尤其在企业级和高合规场景中占优,形成“双轨结构”:闭源定性能上限,开源提效率与灵活性。 中型模型(15B–70B参数)成为最大增长点。2024年11月Qwen2.5 Coder 32B发布后,Mistral Small 3、GPT-OSS 20B等陆续入场,用户追求“够聪明又不贵不慢”的平衡。小型模型使用持续下降,大型模型虽增长但未现垄断。 使用场景出人意料:在开源模型中,角色扮演类任务占token消耗超50%,编程次之(15%–20%),远超传统认知。这反映用户将模型用于叙事、虚拟互动、同人创作等娱乐与情感陪伴场景。开源模型因可自由微调、少安全过滤,更适配此类需求。而若纳入闭源模型,编程任务占比已从年初11%跃升至50%以上,成最激烈竞争领域,Anthropic的Claude系列长期主导,OpenAI、Google及新兴玩家快速渗透。 “Agentic推理”成为核心趋势。推理优化模型(如o1、GPT-5、Claude 4.5、Gemini 3)的token使用占比突破50%。用户不再只发单次请求,而是构建多步骤、调用工具、持续交互的自动化系统。提示词长度近四倍增长,输出长度翻三倍,主因是代码理解、调试等复杂任务输入超2万token。模型正从“创意生成器”转向“分析引擎”。 地理分布显示AI使用日益全球化。亚洲份额从13%升至31%,北美虽仍最大,但已不足总消费一半。英语占82.87%,简体中文以4.95%居第二,俄语、西班牙语、泰语等也具一定使用量。 成本对需求影响极小。价格下降10%,使用量仅增0.5%–0.7%,市场未完全商品化。模型按“高使用+高价格”“高使用+低价格”“低使用+低价格”“低使用+高价格”分象限,闭源主攻高价值任务,开源则覆盖价格敏感的广泛使用。 报告提出“灰姑娘水晶鞋效应”:当新模型首次精准匹配长期未解的高价值任务,用户会深度绑定,形成强粘性。如Gemini 2.5 Pro、Claude 4 Sonnet的早期队列留存率超40%,而GPT-4o Mini的单一发布队列则建立压倒性粘性。反观未建立匹配的模型,如Gemini 2.0 Flash,留存率始终低迷。 总结:多模型生态已成常态,用户选择更灵活;AI使用远超生产力工具,娱乐与陪伴需求巨大;Agentic推理正成为默认范式;全球化加速,中国模型影响力扩大。报告也指出数据局限,仅反映OpenRouter平台行为,不涵盖企业内用或本地部署。
