Claude Sonnet 4.6 يُحدث ثورة في استخدام الذكاء الاصطناعي للحواسيب: من استدعاء الأدوات إلى استخدامها فعليًا في خطوة تُعدّ تحولًا جوهريًا في تطور الذكاء الاصطناعي العامل، أطلقت شركة Anthropic الإصدار الجديد من نموذجها Claude Sonnet 4.6، الذي يُبرز قدرة غير مسبوقة على استخدام البرامج عبر واجهة المستخدم الرسومية — بدلًا من الاعتماد فقط على استدعاء واجهات برمجة التطبيقات (API). الفرق الجوهري بين "استدعاء الأدوات" و"استخدامها" لا يقتصر على التكنولوجيا، بل يمتد إلى الفلسفة. في النماذج الحالية، يُطلب من الذكاء الاصطناعي إصدار طلب بصيغة JSON لتشغيل دالة مُعدّة مسبقًا — ما يعني أن كل وظيفة يجب أن تكون مُغلفة كـ API. لكن مع Sonnet 4.6، ينتقل الذكاء الاصطناعي من التفاعل مع الأدوات عبر بروتوكولات محددة إلى التفاعل مع البرامج كما يفعل الإنسان: من خلال رؤية الشاشة، واتخاذ قرارات بناءً على ما يراه، ثم تنفيذ إجراءات مثل النقر، الكتابة، التمرير. هذا التحول، الذي يُعرف بـ "استخدام الحاسوب"، يُعتبر الركيزة الأساسية في الإصدار الجديد. ورغم أن Sonnet 4.6 ليس نموذجًا جديدًا بالكامل — بل ترقية لـ Sonnet 4.5 — إلا أن تحسيناته تُعدّ ملموسة: أداء أفضل في اختبارات البرمجة، تحسين في اتباع التعليمات، وتقليل التفكير المفرط في حل المشكلات. وفي اختبارات مقارنة، اختار المستخدمون Sonnet 4.6 على Sonnet 4.5 بنسبة 70%، وفوق Opus 4.5 في 59% من الحالات — ما يُعدّ إنجازًا ملحوظًا. لكن الحقيقة الأبرز تكمن في قدرة النموذج على التفاعل مع النظام مثل إنسان: يلتقط لقطة شاشة، يحلل ما يراه، يقرر الخطوة التالية (نقر، كتابة، تمرير)، ثم يُعيد التقاط لقطة جديدة لرؤية النتيجة. هذه الحلقة تُكرر حتى اكتمال المهمة. لا يوجد وصول مباشر إلى الكود أو الملفات — فقط الصور. وهذا ما يجعل العملية بطيئة نسبيًا: كل خطوة تستغرق ثوانٍ بسبب التأخير في التقاط الصورة، تحليلها، ثم تنفيذ الإجراء. التكاليف تتراكم أيضًا: كل لقطة شاشة تُحسب كـ "رمز بصري" (vision token)، مع قيود على الدقة (1568 بكسل كحد أقصى). لذلك، ينصح أنثروبك بتطبيق هذه الميزة في مهام لا تتطلب سرعة فورية — مثل جمع المعلومات الخلفية، اختبار البرمجيات تلقائيًا، أو معالجة دفعات. لكن الذكاء الاصطناعي الذكي لا يعتمد على الشاشة دائمًا. في المهام البسيطة، يستخدم أوامر بحثية عبر الـ Bash، أو يفتح ملفات عبر المحرر النصي. فقط عندما تتطلب المهمة تفاعلًا بصريًا — مثل ملء نموذج على موقع ويب — يلجأ إلى التقاط الصور. التنفيذ متوفر عبر نموذج مفتوح المصدر بسيط: يكفي تشغيل حاوية دوكير (Docker) تحتوي على بيئة متكاملة، وفتح متصفح على http://localhost:8080 لمشاهدة Claude يتحكم في الحاسوب فعليًا. هذا ليس مجرد تجربة تقنية — بل بداية لعصر جديد حيث يصبح الذكاء الاصطناعي ليس مجرد أداة تُستدعى، بل شريكًا يتفاعل مع العالم الرقمي كما يفعل الإنسان.
يُعدّ إطلاق نسخة Claude Sonnet 4.6 من شركة Anthropic حدثًا محوريًا في تطور الذكاء الاصطناعي، ليس بسبب تغيير جذري في الموديل، بل بسبب قدرة جديدة تُحدث تحوّلًا جوهريًا في كيفية تفاعل الذكاء الاصطناعي مع الأجهزة: استخدام الحاسوب بشكل مباشر عبر واجهة المستخدم الرسومية، بدلًا من الاعتماد فقط على استدعاء واجهات برمجة التطبيقات (API). في معظم الأنظمة الحالية، يُعتبر الذكاء الاصطناعي "مُستدعيًا لأدوات" — أي أنه يُرسل طلبًا بصيغة JSON، ثم يُنفّذ دالة خارجية، ويستقبل النتيجة. لكن هذه الطريقة تعتمد على توفر واجهة برمجة مسبقة، ما يُحدّ من قدرات النموذج في حال عدم توفر API. أما في Sonnet 4.6، فقد تطوّر النموذج ليصبح "مستخدمًا للأدوات"، أي أنه يرى الشاشة كإنسان — يرى لقطات شاشة، ويحلّل المحتوى البصري، ويقرّر النقر، الكتابة، التمرير، ثم يقيّم النتيجة ويتّخذ قرارًا جديدًا. هذا يسمح له بتنفيذ مهام معقدة مثل ملء تقارير مالية أو البحث عن رحلات جوية دون الحاجة إلى واجهات برمجة مسبقة. الآلية تتم عبر دورة متكررة: يُرسل المهمة (مثلاً "افتح متصفح فايرفوكس وابحث عن الطقس في كيب تاون")، يلتقط Claude لقطة شاشة، يحلّلها، يُحدد الإجراء (مثل النقر على شريط العنوان)، ثم يُرسل الأمر لبيئة التنفيذ التي تنفّذ الفعل على الشاشة الحقيقية. يُعاد التكرار حتى الانتهاء من المهمة. النموذج لا يرى الكود أو البيانات الداخلية، بل يتعامل فقط مع الصور — تمامًا كما يفعل الإنسان. لكن هذه الطريقة ليست فعّالة من حيث السرعة: كل إجراء يتطلب دورة كاملة من التقاط الصورة، التحليل، الإرسال، التنفيذ، ما يستغرق ثوانٍ لكل خطوة. مهام تتطلب 20 خطوة قد تستغرق 2–3 دقائق، مع تراكم التكاليف بسبب معالجة الصور كـ"أرقام بصرية" (vision tokens)، ما يجعلها غير مناسبة للمهام الزمنية الحساسة. لذلك، توصي Anthropic باستخدام هذه الميزة في مهام غير حساسة للزمن، مثل جمع معلومات خلفية، اختبارات أتمتة، أو معالجة دفعات. كما تُظهر النماذج أن الذكاء الاصطناعي الذكي لا يعتمد على الصور دائمًا: يستخدم بيئة الأوامر (Bash) عند الحاجة، أو محرر نصوص عند قراءة ملفات، ويعود إلى الصور فقط عند الحاجة الحقيقية للتفاعل البصري. التنفيذ متوفر كنموذج تجريبي (MVP) عبر حاوية Docker، تُعدّ مصدراً مكتملًا يحتوي على الأدوات اللازمة، ويشمل واجهة مستخدم عبر المتصفح. يمكن تشغيله بسهولة عبر أمر بسيط، ثم الانتقال إلى http://localhost:8080 لمراقبة Claude وهو يتفاعل مع الكمبيوتر كإنسان. رغم التحديات، فإن هذه الخطوة تمثل تحوّلًا كبيرًا: من الذكاء الاصطناعي كمُستدعي واجهات برمجة، إلى ذكاء يتفاعل مع العالم الرقمي كما يفعل البشر — عبر العين واليد. ورغم أن التكلفة والسرعة لا تزالان عقبات، فإن هذا التطوّر يُعدّ خطوة جوهرية نحو عالم يُمكن فيه للذكاء الاصطناعي أن يُصبح شريكًا حقيقيًا في المهام اليومية.
