محسنات الصندوق الأسود
في عام 2024، اقترحت جامعة كارنيجي ميلون (CMU) استراتيجية جديدة لتحسين الصندوق الأسود تعمل تلقائيًا على ضبط إشارات اللغة الطبيعية من خلال نموذج لغوي كبير لتحسين أداء نماذج اللغة المرئية (VLMs) في مهام متعددة لاحقة مثل الرسوم البيانية النصية والتعرف البصري. لا تحتاج هذه الطريقة إلى لمس المعلمات الداخلية للنموذج فحسب، بل إنها تعمل أيضًا على تحسين مرونة وسرعة التحسين بشكل كبير، مما يسمح للمستخدمين الذين ليس لديهم خلفية تقنية بتحسين أداء النموذج بسهولة. نتائج البحث ذات الصلة هينماذج اللغة كمُحسِّنات للصندوق الأسود لنماذج الرؤية واللغة"تم قبول هذا البحث من قبل CVPR 2024.

على وجه التحديد، قام الباحثون بتحسين نماذج VLM باستخدام مطالبات اللغة الطبيعية، والتي تتجنب الحصول على معلمات النموذج، وتضمينات الميزات، واحتمالات تسجيل الإخراج. على وجه التحديد، يتم استخدام نماذج اللغة الكبيرة المستندة إلى الدردشة (LLMs) للبحث عن أفضل المطالبات النصية لـ VLMs من خلال إجراء "تسلق التل" التلقائي، والذي يمكن أن يجعل المطالبات تتقارب إلى حالة صالحة أثناء المحادثة دون تدخل بشري.
في إعداد تصنيف الصور أحادي اللقطة الصعب، تم اختبار الطريقة البسيطة المقترحة على 11 مجموعة بيانات بما في ذلك ImageNet وتفوقت على طريقة المطالبة المستمرة للصندوق الأبيض (CoOp) بمقدار 1.5% في المتوسط، وتفوقت على المطالبات المصممة يدويًا بالإضافة إلى المطالبات التي تم إنشاؤها بواسطة LLMs. وتسلط الدراسة الضوء أيضًا على مزايا التغذية الراجعة المحادثة التي تحتوي على إشارات إيجابية وسلبية، حيث يتمكن طلاب الماجستير في القانون من استغلال اتجاه "التدرج" الضمني في التغذية الراجعة النصية لتحقيق بحث أكثر كفاءة. علاوة على ذلك، فإن المطالبات النصية التي تولدها هذه الاستراتيجية ليست أكثر قابلية للتفسير فحسب، بل إنها تنتقل أيضًا بشكل جيد بين هياكل VLM المختلفة بطريقة الصندوق الأسود.
أخيرًا، تم تطبيق هذا الإطار لتحسين VLM الصندوق الأسود المتطور (DALL-E 3) لتوليد النص إلى صورة، والعكس السريع، والتخصيص.