HyperAIHyperAI

Command Palette

Search for a command to run...

نماذج الرؤية النصية التباينية المعززة بالاسترجاع

Iscen Ahmet ; Caron Mathilde ; Fathi Alireza ; Schmid Cordelia

الملخص

تُشكِّل نماذج الصور النصية التباينية مثل CLIP (كليب) الحجارة الأساسية لعديد من الأنظمة الرائدة. بينما تتفوق هذه النماذج في التعرف على المفاهيم العامة الشائعة، فإنها لا تزال تعاني صعوبات في التعامل مع الكيانات الدقيقة التي تكون نادرة أو حتى غائبة عن مجموعة البيانات الأولية. لذلك، كان أحد العناصر الرئيسية لنجاحها هو استخدام بيانات أولية معدة بعناية وواسعة النطاق تهدف إلى توسيع مجموعة المفاهيم التي يمكن أن تتذكرها خلال مرحلة التدريب الأولي. في هذا البحث، نستكشف بديلاً لترميز المعرفة الدقيقة مباشرة في معلمات النموذج: بدلاً من ذلك، نقوم بتدريب النموذج على استرجاع هذه المعرفة من ذاكرة خارجية. تحديداً، نقترح تزويد النماذج البصرية-النصية القائمة بالقدرة على تحسين غرزها (Embedding) باستخدام المعلومات المسترجعة عبر الأوضاع من الذاكرة أثناء الاستدلال، مما يحسن بشكل كبير التنبؤات الفورية للنموذج. بشكل ملحوظ، نظهر أنه يمكن تحقيق ذلك باستخدام محول دمج خفيف الوزن ذو طبقة واحدة فوق CLIP (كليب) المتجمد. تؤكد تجاربنا أن التدريب المعزز باسترجاع المعلومات (RECO) يحسن أداء CLIP (كليب) بشكل كبير في عدة مهمات دقيقة ومعقدة: على سبيل المثال، بمعدل +10.9 في مهمة سيارات ستانفورد (+10.2 في CUB-2011 و+7.3 في مقاييس OVEN الحديثة)، حيث نتفوق حتى على النماذج المحلاة الدقيقة في فئات غير مشهودة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp