الانحراف المتبادل للمعلومات: مقياس موحد للنماذج التوليدية متعددة الأوضاع

توليد الصور من النص ووصف الصور قد ظهر مؤخرًا كنموذج تجريبي جديد لتقييم الذكاء الآلي. يتوقع هذا النموذج كميات مستمرة مصحوبة بتقنيات العينة المستخدمة في التوليد، مما يجعل التقييم معقدًا وغير قابل للحل للحصول على التوزيعات الحاشية. استنادًا إلى الاتجاه الحديث الذي يستغل فيه تقييمات المولدات متعددة الوسائط نموذجًا مسبق التدريب على الرؤية واللغة، نقترح استخدام المعلومات المتبادلة الجاوسية السالبة باستخدام خصائص CLIP كمعيار موحد، والذي أطلقنا عليه اسم اختلاف المعلومات المتبادلة (MID). للاختبار، قمنا بمقارنة شاملة لهذا المعيار مع المقاييس المنافسة باستخدام أحكام تم إنشاؤها بعناية أو تم توثيقها من قبل البشر في مهام توليد الصور من النص ووصف الصور. أظهر MID المقترح تفوقًا كبيرًا على الأساليب التنافسية من خلال تحقيق الاتساق عبر مقاييس الأداء، وكفاءة العينات، والمتانة تجاه النموذج CLIP المستغل. نتطلع إلى رؤية الدلالات غير المعروفة جيدًا للمعلومات المتبادلة الجاوسية السالبة في تعلم التمثيل متعدد الوسائط والأعمال المستقبلية التي تستند إلى هذه المقترحة الجديدة.