HyperAI

2025年12月，a16z与AI推理平台OpenRouter联合发布《State of AI》报告，基于其平台上超过100万亿token的真实用户交互数据，揭示了大语言模型在实际应用中的深层演变。报告发布之际，正值OpenAI发布o1推理模型一周年，标志着AI从单次前向生成迈向多步骤内部推敲的范式跃迁。与传统依赖基准测试或厂商内部数据的研究不同，该报告仅使用元数据（时间戳、模型选择、token消耗、工具调用等），确保了大规模行为分析的可行性，同时保护用户隐私。报告最显著的发现是开源模型的强势崛起。到2025年末，开源模型（OSS）在总token消耗中占比接近30%，一年内实现陡峭增长。中国模型如DeepSeek、通义千问（Qwen）和月之暗面（Moonshot AI）的Kimi系列贡献显著，全年平均占中国开源模型使用量约13%，与非中国开源模型基本持平，形成中美双极格局。其成功源于高频迭代与高性价比性能，尤其在角色扮演、叙事生成等非生产性场景中表现突出。这类任务需灵活风格、情感细腻与上下文记忆，而开源模型因可自由微调、规避商业过滤器，更易满足幻想类和娱乐类需求。与此同时，中型模型（15B–70B参数）成为新增长极。2024年11月Qwen2.5 Coder 32B发布后，Mistral Small 3、GPT-OSS 20B等陆续入场。中型模型在能力与成本间取得理想平衡，成为开发者首选。小型模型使用量持续下降，大型模型虽增长但未现垄断，显示市场高度分散。编程任务的爆发式增长尤为引人注目。在全部LLM使用中，编程占比从年初的11%升至50%以上，成为最激烈竞争领域。Anthropic的Claude系列长期占据60%以上份额，OpenAI从2%增至8%，Google稳定在15%，MiniMax、Z.AI、Qwen等新势力快速渗透。报告称其为“最具战略重要性”的类别，微小性能或延迟差异即可引发周度份额波动。 Agentic推理的兴起是核心趋势。模型不再仅作单轮生成，而是作为自动化系统组件，执行多步规划、调用工具、维持长上下文。报告数据显示，推理优化模型（如o1、GPT-5、Claude 4.5、Gemini 3）的token占比已超50%。工具调用、提示长度（平均从1,500增至6,000+ token）和序列复杂度显著上升，反映使用范式正从“创意生成”转向“分析引擎”。这要求模型具备更强的上下文管理、工具处理与系统鲁棒性。地理分布上，亚洲使用量从13%升至31%，中国模型的全球输出与区域AI普及共同推动全球化。英语仍占82.87%，但简体中文（4.95%）紧随其后，多语言能力成关键竞争力。成本方面，价格弹性极低——价格降10%，使用量仅增0.5%–0.7%，显示市场尚未完全商品化，差异化仍具价值。报告提出“灰姑娘水晶鞋效应”：当新模型恰好匹配长期未解的高价值任务（如复杂推理或工具链集成），便形成用户锁定。Gemini 2.5 Pro与Claude 4 Sonnet的高留存率即为此类“契合”的体现。而未建立初始匹配的模型（如Gemini 2.0 Flash）则难以形成稳定用户群。DeepSeek的“回旋镖效应”更显示，用户在试错后可能回归最优解。综上，多模型生态已成常态，Agentic推理成新默认范式，全球化与去中心化加速，中国模型正重塑AI版图。报告虽受限于单一平台数据，但其行为洞察为产业演进提供了关键参考。业内专家认为，该报告首次以真实用户行为验证了“AI从工具到代理”的根本转型。OpenRouter作为中立接口，其数据价值远超厂商自研。a16z强调，未来AI竞争将不再仅看模型参数，而在于系统级协同能力。中国模型的全球渗透，也预示着AI技术治理与文化适配将成新战场。

Verwandte Links

Verwandte Links

Verwandte Links

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Command Palette

AI-Nutzung: Open-Source-Boom, Agentic Inference und globale Diversifizierung

Verwandte Links

Command Palette

AI-Nutzung: Open-Source-Boom, Agentic Inference und globale Diversifizierung

Verwandte Links

Command Palette

AI-Nutzung: Open-Source-Boom, Agentic Inference und globale Diversifizierung

Verwandte Links

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.