HyperAIHyperAI

Command Palette

Search for a command to run...

تنقل البيانات وتقييم الجودة لاسترجاع الصور المركبة

Matan Levy Rami Ben-Ari Nir Darshan Dani Lischinski

الملخص

تتضمن مهمة استرجاع الصور المركبة (CoIR) استعلامات تجمع بين نمطي الصورة والنص، مما يسمح للمستخدمين بتعبير نواياهم بشكل أكثر فعالية. ومع ذلك، فإن مجموعات البيانات الحالية لـ CoIR أصغر بمراحل مقارنة بمجموعات البيانات الأخرى المتعلقة بالرؤية واللغة (V&L). بالإضافة إلى ذلك، تعاني بعض هذه المجموعات من مشكلات ملحوظة، مثل احتواء الاستعلامات على نماذج زائدة. لمعالجة هذه النقصان، نقدم مجموعة بيانات استرجاع الصور المركبة على نطاق واسع (LaSCo)، وهي مجموعة بيانات CoIR جديدة أكبر بعشر مرات من الموجودة حاليًا. يظهر التدريب الأولي على LaSCo تحسينًا ملحوظًا في الأداء، حتى في الحالات التي لم يتم تدريبها عليها سابقًا (zero-shot). علاوة على ذلك، نقترح منهجية جديدة لتحليل مجموعات بيانات CoIR والطرق المستخدمة فيها، والتي تكشف عن الزائد أو الضروري من النماذج في الاستعلامات. كما نقدم قاعدة خطية جديدة لـ CoIR وهي محرك الترميز المنحرف بواسطة التركيز المتقاطع (CASE). تتيح هذه القاعدة الخطية دمج النماذج في مرحلة مبكرة باستخدام وحدة التركيز المتقاطع وتقوم بتضمين مهمة ثانوية إضافية أثناء التدريب. تظهر تجاربنا أن هذا الأساس الجديد يتفوق على الأساليب الرائدة حاليًا في المقاييس المعترف بها مثل FashionIQ وCIRR.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp