HyperAIHyperAI

Command Palette

Search for a command to run...

ImageScope: توحيد الاسترجاع الموجه باللغة للصور من خلال التفكير التجميعي للنماذج متعددة الوسائط الكبيرة

Pengfei Luo Jingbo Zhou Tong Xu Yuan Xia Linli Xu Enhong Chen

الملخص

مع انتشار الصور في المحتوى عبر الإنترنت، ظهرت مهمة استرجاع الصور الموجهة باللغة (LGIR) كمجال بحثي رئيسي خلال العقد الماضي، وتتضمن مجموعة متنوعة من المهام الفرعية ذات أشكال إدخال مختلفة. وعلى الرغم من أن تطور النماذج متعددة الوسائط الكبيرة (LMMs) ساهم بشكل كبير في تسهيل هذه المهام، إلا أن النماذج الحالية غالبًا ما تتعامل معها بشكل منفصل، مما يتطلب بناء أنظمة منفصلة لكل مهمة. وهذا لا يزيد فقط من تعقيد الأنظمة وتكاليف الصيانة، بل يفاقم أيضًا التحديات الناتجة عن غموض اللغة والمحتوى الصوري المعقد، ما يجعل من الصعب على أنظمة الاسترجاع تقديم نتائج دقيقة وموثوقة. ولحل هذه المشكلة، نقترح "ImageScope"، وهي إطار عمل ثلاثي المراحل، لا يتطلب تدريبًا، يعتمد على الاستدلال الجماعي لتوحيد مهام LGIR. تكمن الفكرة الأساسية وراء هذا التوحيد في الطبيعة التركيبية للغة، التي تحوّل المهام المتنوعة لـ LGIR إلى عملية استرجاع عامة من النص إلى الصورة، مع استخدام استدلال النماذج متعددة الوسائط الكبيرة كوسيلة تحقق عامة لتحسين النتائج. وبشكل محدد، في المرحلة الأولى، نعزز مرونة الإطار من خلال توليد نوايا البحث عبر مستويات مختلفة من الدقة الدلالية باستخدام استدلال السلسلة من التفكير (CoT). وفي المرحلتين الثانية والثالثة، نعيد التفكير في نتائج الاسترجاع من خلال التحقق من الادعاءات (العوامل الصريحة) محليًا، ثم إجراء تقييمات زوجية على المستوى العام. وأظهرت التجارب المُجرَّبة على ستة مجموعات بيانات لـ LGIR أن "ImageScope" يتفوق على النماذج التنافسية. كما تؤكد التقييمات الشاملة والدراسات التحليلية (أبلاغات التأثير) فعالية تصميمنا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ImageScope: توحيد الاسترجاع الموجه باللغة للصور من خلال التفكير التجميعي للنماذج متعددة الوسائط الكبيرة | مستندات | HyperAI