سيلكي: استخلاص التفضيلات لنموذجات اللغة البصرية الكبيرة

يستعرض هذا البحث عملية استخلاص التفضيلات (preference distillation) لنموذجات الرؤية واللغة الكبيرة (LVLMs)، بهدف تحسين قدرتها على إنتاج ردود مفيدة وموثوقة والمرتبطة بالسياق البصري. نحن أولًا نُنشئ مجموعة بيانات تغذية راجعة لغوية-بصرية (VLFeedback) باستخدام التسمية الآلية (AI annotation). وبشكل خاص، يتم إنتاج الردود من خلال نماذج مُختارة من 12 نموذج LVLM، مع توجيهها وفقًا لتعليمات متعددة الوسائط مستمدة من مجموعات بيانات متنوعة. ونستخدم GPT-4V لتقييم النتائج المُولَّدة من حيث الفائدة، والانسجام البصري، والاعتبارات الأخلاقية. علاوةً على ذلك، يتم استخلاص إشراف التفضيل إلى نموذج Qwen-VL-Chat باستخدام طريقة التحسين المباشر للتفضيلات (DPO). ويحقق النموذج الناتج، المُسمى Silkie، تحسينًا نسبيًا بنسبة 6.9% و9.5% على معيار MME فيما يتعلق بقدرات الإدراك والتفكير المعرفي، على التوالي. كما يُظهر Silkie تقليلًا في التصوّرات الخاطئة، حيث يحقق أفضل أداء مُسجّل حتى الآن بدرجة 3.02 على معيار MMHal-Bench. وتشير التحليلات الإضافية إلى أن DPO مع مجموعة بيانات VLFeedback تُعزز بشكل رئيسي القدرات الدقيقة في الإدراك والتفكير المعقد لدى نماذج LVLM، ما يؤدي إلى تحسينات أكثر شمولاً مقارنةً ببيانات التفضيل التي تم تسميتها يدويًا من قبل البشر.