ImageScope: توحيد الاسترجاع الموجه باللغة للصور من خلال التفكير التجميعي للنماذج متعددة الوسائط الكبيرة

مع انتشار الصور في المحتوى عبر الإنترنت، ظهرت مهمة استرجاع الصور الموجهة باللغة (LGIR) كمجال بحثي رئيسي خلال العقد الماضي، وتتضمن مجموعة متنوعة من المهام الفرعية ذات أشكال إدخال مختلفة. وعلى الرغم من أن تطور النماذج متعددة الوسائط الكبيرة (LMMs) ساهم بشكل كبير في تسهيل هذه المهام، إلا أن النماذج الحالية غالبًا ما تتعامل معها بشكل منفصل، مما يتطلب بناء أنظمة منفصلة لكل مهمة. وهذا لا يزيد فقط من تعقيد الأنظمة وتكاليف الصيانة، بل يفاقم أيضًا التحديات الناتجة عن غموض اللغة والمحتوى الصوري المعقد، ما يجعل من الصعب على أنظمة الاسترجاع تقديم نتائج دقيقة وموثوقة. ولحل هذه المشكلة، نقترح "ImageScope"، وهي إطار عمل ثلاثي المراحل، لا يتطلب تدريبًا، يعتمد على الاستدلال الجماعي لتوحيد مهام LGIR. تكمن الفكرة الأساسية وراء هذا التوحيد في الطبيعة التركيبية للغة، التي تحوّل المهام المتنوعة لـ LGIR إلى عملية استرجاع عامة من النص إلى الصورة، مع استخدام استدلال النماذج متعددة الوسائط الكبيرة كوسيلة تحقق عامة لتحسين النتائج. وبشكل محدد، في المرحلة الأولى، نعزز مرونة الإطار من خلال توليد نوايا البحث عبر مستويات مختلفة من الدقة الدلالية باستخدام استدلال السلسلة من التفكير (CoT). وفي المرحلتين الثانية والثالثة، نعيد التفكير في نتائج الاسترجاع من خلال التحقق من الادعاءات (العوامل الصريحة) محليًا، ثم إجراء تقييمات زوجية على المستوى العام. وأظهرت التجارب المُجرَّبة على ستة مجموعات بيانات لـ LGIR أن "ImageScope" يتفوق على النماذج التنافسية. كما تؤكد التقييمات الشاملة والدراسات التحليلية (أبلاغات التأثير) فعالية تصميمنا.