تقطير البرنامج البصري: تقطير الأدوات والتفكير البرمجي إلى نماذج اللغة والرؤية

حل المهام البصرية المعقدة مثل "من اخترع الآلة الموسيقية على اليمين؟" يتطلب تركيبة من المهارات: فهم الفضاء، التعرف على الآلات الموسيقية، واسترجاع المعرفة السابقة. تظهر الأبحاث الحديثة إمكانات واعدة من خلال تفكيك هذه المهام باستخدام نموذج لغوي كبير (LLM) إلى برنامج قابل للتنفيذ يدعو إلى استخدام نماذج رؤية متخصصة. ومع ذلك، فإن البرامج المولدة عرضة للأخطاء: فهي تتجاهل الخطوات اللازمة، وتتضمن خطوات غير ضرورية، ولا تستطيع التعافي عندما تعطي النماذج المتخصصة مخرجات خاطئة. بالإضافة إلى ذلك، تتطلب تحميل عدة نماذج، مما يؤدي إلى زيادة زمن الاستجابة وتكلفة الحوسبة. نقترح تقنية تقطير البرنامج البصري (VPD)، وهي إطار تعديل التعليمات الذي ينتج نموذجًا بصريًا-لغويًا (VLM) قادرًا على حل المهام البصرية المعقدة بمرور واحد فقط. تقوم VPD بتقطير قدرة النماذج اللغوية الكبيرة على الاستدلال من خلال استخدامها لاختيار برامج مرشحة متعددة، والتي يتم تنفيذها والتحقق منها لتحديد البرنامج الصحيح. ثم يتم تحويل كل برنامج صحيح إلى وصف لغوي للخطوات المنطقية، والتي يتم بعد ذلك تقطيرها في نموذج بصري-لغوي. أظهرت التجارب الواسعة أن VPD تحسن قدرة النموذج البصري-اللغوي على العد، فهم العلاقات الفضائية، والاستدلال التركيبي. كما أكدت التقييمات التي أجريت بواسطة مصححين بشريين أن VPD تحسن صحة ومتسقة استجابات النموذج. وأخيرًا، أثبتت التجارب حول مoderation المحتوى أن VPD مفيدة أيضًا للتكيف مع التطبيقات العملية في العالم الحقيقي مع بيانات محدودة.注:在最后一句中,“content moderation” 是一个专有名词,通常指“内容审核”,但为了保持专业性和避免歧义,我保留了英文原词并在前面加上了阿拉伯语解释。如果需要完全翻译为阿拉伯语,可以改为“رقابة المحتوى”。