HyperAIHyperAI
منذ 18 أيام

هل أداء نماذج استرجاع الصور من النص يُعمّم خارج نطاق الاستعلام القائم على الوصف؟

{Davide Mottin, Matteo Lissandrini, Dima Sivov, Gil Lederman, Eliezer Levy, Nima Tavassoli, Juan Manuel Rodriguez}
الملخص

استرجاع الصور من النص (T2I) يشير إلى المهمة المتعلقة باسترجاع جميع الصور ذات الصلة بطلب نصي مكوّن من كلمات مفتاحية. تستخدم المجموعات الشهيرة لاسترجاع الصور من النص، مثل Flickr30k وVG وMS-COCO، وصفًا مرفقًا بالصورة (مثل: "رجل يلعب مع طفل") كاستعارة للأسئلة. وباستخدام هذه الأسئلة البديلة، تُظهر النماذج الحالية متعددة الوسائط، مثل CLIP أو BLIP، أداءً متميزًا. والسبب الرئيسي في ذلك هو الطبيعة الوصفية للعناوين المرفقة، التي تصف محتوى الصورة بدقة. ومع ذلك، فإن أسئلة استرجاع الصور من النص لا تقتصر على الوصف الموجود في أزواج الصورة-النص. وبالتالي، تُعد هذه المجموعات غير مناسبة لاختبار الطرق في حالات الأسئلة المجردة أو المفاهيمية، مثل "إجازات العائلة". في هذه الأسئلة، يكون محتوى الصورة مُشَكَّلًا ضمنيًا بدلًا من أن يكون مُوصَفًا بشكل صريح. في هذا البحث، نعيد تجربة نتائج استرجاع الصور من النص على الأسئلة الوصفية ونُعمّقها لتشمل الأسئلة المفاهيمية. ولتحقيق ذلك، نُجري تجارب جديدة على معيار جديد لاسترجاع الصور من النص يُسمّى ConQA، والذي يُعنى بحل الأسئلة المفاهيمية. يتكوّن ConQA من 30 سؤالًا وصفيًا و50 سؤالًا مفاهيميًا، مُطبّقًا على 43,000 صورة، مع أكثر من 100 صورة مُعلّمة يدويًا لكل سؤال. تُظهر نتائجنا باستخدام مقاييس مُتعارف عليها أن النماذج الكبيرة المُدرّبة مسبقًا (مثل CLIP وBLIP وBLIP2) والنموذج الصغير (مثل SGRAF وNAAF) تُظهر أداءً أفضل بمرات تصل إلى 4 مرات في الأسئلة الوصفية مقارنة بالأمثلة المفاهيمية. كما لاحظنا أن الأداء يتحسّن في الأسئلة التي تحتوي على أكثر من 6 كلمات مفتاحية، كما في عناوين MS-COCO.