بايثون تُعيد تعريف التفكير البصري: هذا الإطار الجديد يسمح للذكاء الاصطناعي بكتابة أدواته الخاصة أثناء حل المشكلات
أطلقت مجموعة من الباحثين من مختبر الذكاء الاصطناعي في شنغهاي، وجامعة رايس، وجامعة هونغ كونغ للتكنولوجيا، وجامعة نورثويسترن، وشركة SII، إطارًا جديدًا يُدعى "PyVision"، وهو إطار يركز على لغة بايثون، حيث يسمح للنماذج اللغوية متعددة الوسائط الكبيرة (MLLMs) بإنشاء أدوات مخصصة لمعالجة المهام المرتبطة بالرؤية والتفكير المنطقي. تُعد هذه المهام من بين الأصعب في مجال الذكاء الاصطناعي، حيث تتطلب القدرة على تحليل الصور، وتحديد السمات ذات الصلة، وتقديم تفسيرات أو حلول تتطلب سلسلة من الخطوات التفكيرية المرتبطة بالصورة. تواجه النماذج الحالية تحديات كبيرة في التكيف مع المهام البصرية المتنوعة، إذ تعتمد غالبًا على أدوات محددة مسبقًا وعمليات معالجة ثابتة، مما يحد من قدراتها على التفكير التكيفي أو إنشاء حلول جديدة خارج نطاق أدواتها المقدمة. كما أن هذه النماذج تعاني من ضعف في القدرة على التفكير التجريدي أو تجاوز الميزات السطحية في المحتوى البصري، مما يجعلها غير فعالة في مجالات تتطلب تفكيرًا متكررًا وتحليلًا عميقًا. يُقدم PyVision حلًا مبتكرًا، حيث يعتمد على لغة بايثون كأساس لبناء أدوات مخصصة في محاور متعددة، مما يتيح للنموذج التكيف مع المهام أثناء تنفيذها، واتخاذ قرارات، وتحليل النتائج، وتحسين الكود أو التفكير عبر عدة خطوات. يدعم الإطار القدرة على الحفاظ على حالة المتغيرات بين المراحل، مما يسمح بالتفكير التسلسلي، كما يحتوي على ميزات أمان داخلية مثل العزلة في البيئة التنفيذية وتدفق الإدخال والإخراج المُنظم، مما يضمن الأداء الموثوق حتى في المهام المعقدة. في الممارسة العملية، يبدأ PyVision باستقبال سؤال من المستخدم مع محتوى بصري مصاحب، ثم يُنتج النموذج (مثل GPT-4.1 أو Claude-4.0-Sonnet) كودًا بلغة بايثون بناءً على المهمة، ويُنفذه في بيئة منفصلة. تُعاد النتائج (النصية أو البصرية أو العددية) إلى النموذج، الذي يمكنه تعديل خطة العمل وإنشاء كود جديد والتحليق حتى تصل إلى حل مناسب. تظهر نتائج اختبارات كمية أن PyVision يحسن أداء النماذج بشكل ملحوظ، حيث زادت دقة GPT-4.1 في مهمة V* من 68.1% إلى 75.9%، وارتفعت دقة Claude-4.0-Sonnet في مهمة VLMsAreBlind-mini من 48.1% إلى 79.2%. يُعد هذا البحث تقدمًا كبيرًا في مجال التفكير البصري، حيث يعالج عائقًا رئيسيًا في النماذج الحالية من خلال السماح لها بإنشاء أدوات مخصصة في الوقت الفعلي، مما يحوّلها من نماذج ثابتة إلى أنظمة قادرة على حل المشكلات بذكاء وتكيف. يُظهر PyVision القدرة على تكامل التصوير مع التفكير المنطقي، وهو خطوة مهمة نحو بناء أنظمة ذكاء اصطناعي ذكية وقابلة للتكيف لمعالجة التحديات البصرية المعقدة في العالم الحقيقي. يُعتبر PyVision إطارًا مبتكرًا يُظهر قدرة النماذج اللغوية متعددة الوسائط على التكيف والتفكير بشكل مستقل، مما يفتح آفاقًا جديدة لتطوير الذكاء الاصطناعي في مجالات متعددة مثل الطب والرياضيات واللغز البصري. يمكن الوصول إلى الورقة البحثية وصفحة GitHub ومشروع PyVision عبر الإنترنت، ويعتبر هذا الإنجاز من إنجازات الباحثين الذين ساهموا في تطويره.