HyperAIHyperAI

Command Palette

Search for a command to run...

تحفيز النماذج الكبيرة البصرية-اللغوية للاستدلال التكويني

Timothy Ossowski Ming Jiang Junjie Hu

الملخص

أظهرت نماذج الرؤية واللغة مثل CLIP قدرات مبهرة في ترميز النصوص والصور إلى تمثيلات مُتمايزة (embeddings) مُتماشية، مما يمكّن من استرجاع البيانات متعددة الوسائط في فضاء تمثيلي مشترك. ومع ذلك، لا تزال هذه النماذج القائمة على التمثيلات تواجه تحديات في مطابقة الصور والنصوص ذات البنية البصرية-اللغوية المتشابهة بشكل فعّال، كما يُظهر أداءها على مجموعة بيانات Winoground الحديثة. في هذه الورقة، نجادل بأن هذه القيود تنشأ من عاملين: استخدام تمثيلات متجهة واحدة لبيانات متعددة الوسائط المعقدة، وغياب التفكير التدريجي في هذه الطرق القائمة على التمثيلات. لمعالجة هذه المشكلة، نقوم بخطوة استكشافية باستخدام طريقة توليدية جديدة تُحفّز النماذج الكبيرة لرؤية ولغة (مثل GPT-4) على وصف الصور وإجراء استنتاجات تراكيبية. تتفوّق طريقتنا على الطرق الأخرى القائمة على التمثيلات في مجموعة بيانات Winoground، وتُحقّق تحسينًا إضافيًا يصل إلى 10% في الدقة عند تحسينها باستخدام الوصف الأمثل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp