HyperAIHyperAI
منذ 2 أشهر

تنقل البيانات وتقييم الجودة لاسترجاع الصور المركبة

Levy, Matan ; Ben-Ari, Rami ; Darshan, Nir ; Lischinski, Dani
تنقل البيانات وتقييم الجودة لاسترجاع الصور المركبة
الملخص

تتضمن مهمة استرجاع الصور المركبة (CoIR) استعلامات تجمع بين نمطي الصورة والنص، مما يسمح للمستخدمين بتعبير نواياهم بشكل أكثر فعالية. ومع ذلك، فإن مجموعات البيانات الحالية لـ CoIR أصغر بمراحل مقارنة بمجموعات البيانات الأخرى المتعلقة بالرؤية واللغة (V&L). بالإضافة إلى ذلك، تعاني بعض هذه المجموعات من مشكلات ملحوظة، مثل احتواء الاستعلامات على نماذج زائدة. لمعالجة هذه النقصان، نقدم مجموعة بيانات استرجاع الصور المركبة على نطاق واسع (LaSCo)، وهي مجموعة بيانات CoIR جديدة أكبر بعشر مرات من الموجودة حاليًا. يظهر التدريب الأولي على LaSCo تحسينًا ملحوظًا في الأداء، حتى في الحالات التي لم يتم تدريبها عليها سابقًا (zero-shot). علاوة على ذلك، نقترح منهجية جديدة لتحليل مجموعات بيانات CoIR والطرق المستخدمة فيها، والتي تكشف عن الزائد أو الضروري من النماذج في الاستعلامات. كما نقدم قاعدة خطية جديدة لـ CoIR وهي محرك الترميز المنحرف بواسطة التركيز المتقاطع (CASE). تتيح هذه القاعدة الخطية دمج النماذج في مرحلة مبكرة باستخدام وحدة التركيز المتقاطع وتقوم بتضمين مهمة ثانوية إضافية أثناء التدريب. تظهر تجاربنا أن هذا الأساس الجديد يتفوق على الأساليب الرائدة حاليًا في المقاييس المعترف بها مثل FashionIQ وCIRR.

تنقل البيانات وتقييم الجودة لاسترجاع الصور المركبة | أحدث الأوراق البحثية | HyperAI