100 万亿 token 揭秘:AI 真正在被用来做什么?
En 2025, le rapport State of AI publié par la société de capital-risque américaine Andreessen Horowitz (a16z) en collaboration avec OpenRouter, plateforme de traitement d’inférence pour les modèles de langage, révèle des tendances profondes dans l’utilisation réelle des grands modèles linguistiques (LLM). Basé sur plus de 100 billions de tokens générés par des utilisateurs réels via OpenRouter — une interface unifiée connectant des centaines de modèles — ce rapport offre une fenêtre unique sur les comportements des développeurs et des utilisateurs finaux, loin des données internes des géants comme OpenAI ou des benchmarks académiques. Le rapport met en lumière une transformation majeure du paysage IA : la montée en puissance des modèles open source, notamment ceux développés en Chine. En 2025, ces modèles représentent près de 30 % du volume total de tokens traités, contre une part négligeable un an plus tôt. Des modèles comme DeepSeek, Qwen (Alibaba), ou Kimi (Moonshot AI) sont désormais fréquemment utilisés, avec une part hebdomadaire atteignant jusqu’à 30 %, et une moyenne annuelle de 13 %, comparable à celle des modèles open source non chinois. Cette percée s’explique par des cycles de mise à jour rapides, une qualité compétitive et une grande flexibilité pour les ajustements personnalisés. Parallèlement, les modèles fermés (comme ceux d’Anthropic, OpenAI ou Google) conservent encore environ 70 % du marché, surtout dans les secteurs exigeant une fiabilité élevée ou soumis à des régulations strictes. Le rapport décrit cette situation comme une « structure à deux voies » : les modèles fermés définissent le haut de gamme en performance, tandis que les modèles open source offrent une meilleure efficacité coûts et une plus grande souplesse d’adaptation. Un autre phénomène marquant est l’essor des modèles de taille moyenne (entre 15 et 70 milliards de paramètres). Alors que les petits modèles voient leur usage diminuer malgré leur nombre croissant, et que les grands modèles restent diversifiés sans domination claire, ce segment intermédiaire connaît une croissance spectaculaire. Lancement de Qwen2.5 Coder 32B en novembre 2024, suivi par des concurrents comme Mistral Small 3 ou GPT-OSS 20B, a ouvert la voie à une demande croissante pour des modèles « assez intelligents, mais pas trop chers ni lents ». Les usages réels dépassent souvent les attentes. Une analyse de 0,25 % des requêtes montre que, dans le cas des modèles open source, plus de la moitié des tokens sont consacrés à des scénarios de rôle-joué (roleplay), suivis par la programmation (15 à 20 %). Ces usages ludiques — création narrative, jeux interactifs, conversations virtuelles — révèlent que beaucoup d’utilisateurs voient les IA comme des partenaires relationnels, non seulement comme des outils productifs. Les modèles open source, moins soumis à des filtres de sécurité rigides, se prêtent mieux à ces scénarios exigeant de la créativité et de la souplesse émotionnelle. En revanche, la programmation devient le domaine le plus stratégique à l’échelle globale. Son part dans l’usage total des LLM est passé de 11 % au début de l’année à plus de 50 % à la fin. Claude (Anthropic) domine avec plus de 60 % de part, suivi par OpenAI (passé de 2 % à 8 %), Google (15 %), et des acteurs émergents comme MiniMax, Z.AI ou Qwen. Un changement fondamental est aussi en cours : l’ère de l’inférence agente (Agentic Inference). Les modèles ne sont plus seulement des générateurs de texte, mais des composants d’un système automatisé capable de planification multi-étapes, d’appel d’outils externes et d’interaction prolongée dans un contexte étendu. Les modèles optimisés pour l’inférence (comme o1, GPT-5, Claude 4.5, Gemini 3) représentent désormais plus de 50 % des tokens traités. Les longueurs moyennes des requêtes ont quadruplé (de 1 500 à plus de 6 000 tokens), et les sorties ont presque triplé — une tendance alimentée par les tâches de programmation, où les entrées peuvent dépasser 20 000 tokens pour analyser des bases de code complexes. Le rapport souligne que cette évolution transforme les modèles de « générateurs créatifs » en « moteurs d’analyse ». L’évaluation passera désormais moins sur la qualité linguistique que sur la capacité à accomplir des tâches complexes de manière fiable. Sur le plan géographique, l’IA devient de plus en plus mondialisée. L’Asie, dont la part est passée de 13 % à 31 %, devient un acteur majeur, soutenue par l’exportation mondiale des modèles chinois. L’anglais reste dominant (82,87 %), mais le chinois simplifié (4,95 %) et d’autres langues comme le russe, l’espagnol ou le thaï sont en croissance. Enfin, une analyse sur la rétention des utilisateurs révèle un phénomène fascinant : l’effet « chaussure de verre de Cendrillon ». Certains modèles, lorsqu’ils répondent à des besoins complexes jusque-là insatisfaits, créent une fidélité durable. Les utilisateurs s’ancrent autour d’un modèle qui « colle parfaitement », rendant le changement difficile. Ainsi, les versions initiales de Gemini 2.5 Pro ou Claude 4 Sonnet affichent une rétention élevée après 5 mois, tandis que des modèles comme Gemini 2.0 Flash ou Llama 4 Maverick, n’ayant jamais trouvé cette « adéquation », peinent à fidéliser. En conclusion, le rapport montre que le paysage IA est devenu polyvalent, global et complexe. La diversité des modèles, des usages et des géographies rend la stratégie « un modèle pour tout » obsolète. L’avenir appartient aux systèmes agiles, capables de choisir le bon modèle au bon moment, pour accomplir des tâches de plus en plus sophistiquées — où la valeur réside moins dans la taille du modèle que dans sa capacité à résoudre des problèmes concrets.
