تحفيز النماذج الكبيرة البصرية-اللغوية للاستدلال التكويني

أظهرت نماذج الرؤية واللغة مثل CLIP قدرات مبهرة في ترميز النصوص والصور إلى تمثيلات مُتمايزة (embeddings) مُتماشية، مما يمكّن من استرجاع البيانات متعددة الوسائط في فضاء تمثيلي مشترك. ومع ذلك، لا تزال هذه النماذج القائمة على التمثيلات تواجه تحديات في مطابقة الصور والنصوص ذات البنية البصرية-اللغوية المتشابهة بشكل فعّال، كما يُظهر أداءها على مجموعة بيانات Winoground الحديثة. في هذه الورقة، نجادل بأن هذه القيود تنشأ من عاملين: استخدام تمثيلات متجهة واحدة لبيانات متعددة الوسائط المعقدة، وغياب التفكير التدريجي في هذه الطرق القائمة على التمثيلات. لمعالجة هذه المشكلة، نقوم بخطوة استكشافية باستخدام طريقة توليدية جديدة تُحفّز النماذج الكبيرة لرؤية ولغة (مثل GPT-4) على وصف الصور وإجراء استنتاجات تراكيبية. تتفوّق طريقتنا على الطرق الأخرى القائمة على التمثيلات في مجموعة بيانات Winoground، وتُحقّق تحسينًا إضافيًا يصل إلى 10% في الدقة عند تحسينها باستخدام الوصف الأمثل.