HyperAI

محسنات الصندوق الأسود

في عام 2024، اقترحت جامعة كارنيجي ميلون (CMU) استراتيجية جديدة لتحسين الصندوق الأسود تعمل تلقائيًا على ضبط إشارات اللغة الطبيعية من خلال نموذج لغوي كبير لتحسين أداء نماذج اللغة المرئية (VLMs) في مهام متعددة لاحقة مثل الرسوم البيانية النصية والتعرف البصري. لا تحتاج هذه الطريقة إلى لمس المعلمات الداخلية للنموذج فحسب، بل إنها تعمل أيضًا على تحسين مرونة وسرعة التحسين بشكل كبير، مما يسمح للمستخدمين الذين ليس لديهم خلفية تقنية بتحسين أداء النموذج بسهولة. نتائج البحث ذات الصلة هينماذج اللغة كمُحسِّنات للصندوق الأسود لنماذج الرؤية واللغة"تم قبول هذا البحث من قبل CVPR 2024.

التسمية التوضيحية: يتم تحفيز نماذج الرؤية واللغة (VLMs) باستخدام نماذج اللغة الكبيرة القائمة على الدردشة (LLMs). تمامًا كما يقوم مهندسو المطالبات البشرية باختبار المطالبات وتحسينها بشكل متكرر، يستخدم الباحثون ChatGPT لتحسين المطالبات بشكل مستمر للنماذج اللغوية المرئية (VLMs). يقوم النهج التكراري للدراسة بتقييم أداء المطالبات التي يولدها ChatGPT على مجموعة بيانات مكونة من بضع لقطات (مميزة باللون الأزرق) ويقدم ملاحظات إلى ChatGPT من خلال محادثة بسيطة (مميزة باللون الأرجواني)، كما هو موضح في الشكل التوضيحي. يحقق هذا النهج البسيط والمباشر نتائج متطورة في تصنيف الصور ذات اللقطة الواحدة على 11 مجموعة بيانات باستخدام CLIP، ويعمل بطريقة الصندوق الأسود دون الوصول إلى أوزان النموذج أو تضمينات الميزات أو احتمالات السجل الناتجة. تظهر الأبحاث أن تقديم الإشارات الإيجابية (الخضراء) والسلبية (الحمراء) يحسن الفعالية. ومن الجدير بالملاحظة أنه في هذا السيناريو ذي العينة المنخفضة للغاية، يتفوق نهجنا على أساليب الصندوق الأبيض مثل المطالبات المستمرة القائمة على التدرج (CoOp) والمطالبات المصممة يدويًا. يُظهر الرسم التخطيطي محادثة نموذجية واحدة فقط باستخدام واجهة مستخدم الويب ChatGPT. تم تنفيذ الكود الخاص بهذه الدراسة باستخدام واجهة برمجة التطبيقات ChatGPT في هذا الوضع.

على وجه التحديد، قام الباحثون بتحسين نماذج VLM باستخدام مطالبات اللغة الطبيعية، والتي تتجنب الحصول على معلمات النموذج، وتضمينات الميزات، واحتمالات تسجيل الإخراج. على وجه التحديد، يتم استخدام نماذج اللغة الكبيرة المستندة إلى الدردشة (LLMs) للبحث عن أفضل المطالبات النصية لـ VLMs من خلال إجراء "تسلق التل" التلقائي، والذي يمكن أن يجعل المطالبات تتقارب إلى حالة صالحة أثناء المحادثة دون تدخل بشري.

في إعداد تصنيف الصور أحادي اللقطة الصعب، تم اختبار الطريقة البسيطة المقترحة على 11 مجموعة بيانات بما في ذلك ImageNet وتفوقت على طريقة المطالبة المستمرة للصندوق الأبيض (CoOp) بمقدار 1.5% في المتوسط، وتفوقت على المطالبات المصممة يدويًا بالإضافة إلى المطالبات التي تم إنشاؤها بواسطة LLMs. وتسلط الدراسة الضوء أيضًا على مزايا التغذية الراجعة المحادثة التي تحتوي على إشارات إيجابية وسلبية، حيث يتمكن طلاب الماجستير في القانون من استغلال اتجاه "التدرج" الضمني في التغذية الراجعة النصية لتحقيق بحث أكثر كفاءة. علاوة على ذلك، فإن المطالبات النصية التي تولدها هذه الاستراتيجية ليست أكثر قابلية للتفسير فحسب، بل إنها تنتقل أيضًا بشكل جيد بين هياكل VLM المختلفة بطريقة الصندوق الأسود.

أخيرًا، تم تطبيق هذا الإطار لتحسين VLM الصندوق الأسود المتطور (DALL-E 3) لتوليد النص إلى صورة، والعكس السريع، والتخصيص.