"Inference Whales" Are Breaking AI Coding Services — And the Industry Is Reeling A surge in extreme usage by a small group of power users — dubbed "inference whales" — is exposing a critical flaw in the business model of AI coding tools. These users, running complex, long-term AI agents, are consuming vast amounts of computational resources, racking up costs in the tens of thousands of dollars while paying just $200 a month. The problem stems from how AI inference works: newer reasoning models break down tasks into multiple steps, drastically increasing token usage. When applied to AI coding platforms, where developers deploy automated agents for extended projects, costs spiral quickly. Many services offer unlimited access for a flat monthly fee — a model now under strain. Anthropic’s Claude Code, for example, saw some users burn through nearly 11 billion tokens — costing almost $35,000 — on a $200/month plan. One top user, Swedish developer Albert Örwall, admitted his workflow could cost Anthropic $500 a day, far exceeding the revenue from his subscription. In response, Anthropic is introducing weekly rate limits starting August 28, forcing heavy users to pay extra for additional capacity. The company also cited policy violations like account sharing and reselling access. Other platforms, like Cursor, have already shifted to usage-based pricing, triggering backlash over poor communication and unexpected bills. “Most users’ costs stayed constant, but the hardest requests cost an order of magnitude more,” Cursor acknowledged. Experts warn the dream of falling inference costs is fading. Newer models are more capable — and more expensive — and users consistently demand the best, not cheaper alternatives. “We’re cognitively greedy creatures,” said TextQL CEO Ethan Ding. “We want the best brain we can get.” With agentic workflows generating exponentially more tokens, even lower per-token prices won’t save the unlimited subscription model. “The math has fundamentally broken,” Ding concluded. As AI coding evolves, the era of free-for-all access may be over — and the real cost of intelligence is finally coming into focus.
تواجه صناعة البرمجة بالذكاء الاصطناعي أزمة مالية حادة بسبب ظهور ما يُعرف بـ"الحوتات الاستنتاجية" – أي مستخدمين مكثفين يُفرطون في استهلاك قدرات النماذج الذكية، ما يؤدي إلى تضخم تكاليف التشغيل دون مساواة في الدخل. هذه الظاهرة تهدد استدامة شركات ناشئة تعتمد على نماذج ذكاء اصطناعي لتقديم خدمات برمجة آلية، خاصة مع انتشار نماذج تفكير متعددة الخطوات التي تستهلك كميات هائلة من "الرموز" (tokens)، وحدة قياس تحليل النماذج. من أبرز الأمثلة، خدمة "كلاود كود" من شركة أنتروبيك، التي طرحت خطة شهرية بـ200 دولار تتيح استخدامًا غير محدود. لكن بعض المستخدمين، مثل المطور السويدي ألبرت أوروال، استخدموا الخدمة بكثافة لبناء منصات برمجية خاصة، مما أدى إلى استهلاك أكثر من 11 مليار رمز – ما يعادل تكلفة تجاوز 35 ألف دولار، مقابل 200 دولار فقط. هذا التفاوت في التكلفة والدخل جعل الشركة تعيد التفكير في نموذجها. في أغسطس، ستُطبّق أنتروبيك حدودًا أسبوعية على الاستخدام، مع دفع مبالغ إضافية عند التجاوز. كما أشارت الشركة إلى مشاكل مثل مشاركة الحسابات واستخدام الخدمة لبيع الوصول، ما يُهدد أداء النظام للجميع. أوروال، الذي يخطط للحفاظ على اشتراكه الشهري لكن بتعديل سلوكه، أوضح أن استخدامه اليومي قد يكلفه 500 دولار في التكاليف الفعلية، رغم دفعه 200 دولار فقط. من جهته، أعادت شركة كورسور، منافسة كلاود كود، ترتيب خطة "برو" الخاصة بها من غير محدود إلى نظام مُعتمد على الاستخدام، مع تسعير إضافي للطلبات السريعة. هذه التغييرات، التي تم الإعلان عنها بشكل غير واضح عبر عدة مراحل، أثارت استياء المستخدمين، خصوصًا بعد أن تبين أن المهام المعقدة تُستهلك رموزًا بكميات تفوق المهام البسيطة بعشرة أضعاف. السبب الجوهري وراء هذه الأزمة هو توقّع خاطئ بأن تكاليف التشغيل (inference) ستنخفض مع الوقت. لكن الواقع يعكس العكس: كلما ظهر نموذج ذكاء اصطناعي أقوى، دُمج فورًا في الخدمات، مع تسعيره الأعلى. كما أن تدفقات العمل الذكية (agentic workflows)، التي تُشغل مهام برمجية طويلة تلقائيًا، تزيد من استهلاك الرموز بشكل كبير، حتى لو انخفضت الأسعار بالوحدة. كما أشار إيثان دينغ، مؤسس شركة تكستكول، إلى أن "الحسابات أصبحت غير ممكنة": لا يمكن لخطة شهرية بـ20 دولار دعم مهمة بحثية عميقة يوميًا، حتى مع تحسين النماذج. "نحن نركض نحو عالم لا يمكن فيه تقديم استخدام غير محدود عبر اشتراكات، لأن الرياضيات نفسها انهارت"، خلص. الاستنتاج: نماذج الذكاء الاصطناعي في البرمجة لا تزال تعتمد على نموذج مالي هش، حيث لا تزال التكاليف ترتفع بسرعة أكبر من الإيرادات، ما يفرض إعادة تفكير جذري في كيفية تسعير وتقديم هذه الخدمات.