منذ 6 أشهر

الملخص

مع انتشار الصور في المحتوى عبر الإنترنت، ظهرت مهمة استرجاع الصور الموجهة باللغة (LGIR) كمجال بحثي رئيسي خلال العقد الماضي، وتتضمن مجموعة متنوعة من المهام الفرعية ذات أشكال إدخال مختلفة. وعلى الرغم من أن تطور النماذج متعددة الوسائط الكبيرة (LMMs) ساهم بشكل كبير في تسهيل هذه المهام، إلا أن النماذج الحالية غالبًا ما تتعامل معها بشكل منفصل، مما يتطلب بناء أنظمة منفصلة لكل مهمة. وهذا لا يزيد فقط من تعقيد الأنظمة وتكاليف الصيانة، بل يفاقم أيضًا التحديات الناتجة عن غموض اللغة والمحتوى الصوري المعقد، ما يجعل من الصعب على أنظمة الاسترجاع تقديم نتائج دقيقة وموثوقة. ولحل هذه المشكلة، نقترح "ImageScope"، وهي إطار عمل ثلاثي المراحل، لا يتطلب تدريبًا، يعتمد على الاستدلال الجماعي لتوحيد مهام LGIR. تكمن الفكرة الأساسية وراء هذا التوحيد في الطبيعة التركيبية للغة، التي تحوّل المهام المتنوعة لـ LGIR إلى عملية استرجاع عامة من النص إلى الصورة، مع استخدام استدلال النماذج متعددة الوسائط الكبيرة كوسيلة تحقق عامة لتحسين النتائج. وبشكل محدد، في المرحلة الأولى، نعزز مرونة الإطار من خلال توليد نوايا البحث عبر مستويات مختلفة من الدقة الدلالية باستخدام استدلال السلسلة من التفكير (CoT). وفي المرحلتين الثانية والثالثة، نعيد التفكير في نتائج الاسترجاع من خلال التحقق من الادعاءات (العوامل الصريحة) محليًا، ثم إجراء تقييمات زوجية على المستوى العام. وأظهرت التجارب المُجرَّبة على ستة مجموعات بيانات لـ LGIR أن "ImageScope" يتفوق على النماذج التنافسية. كما تؤكد التقييمات الشاملة والدراسات التحليلية (أبلاغات التأثير) فعالية تصميمنا.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Pengfei Luo Jingbo Zhou Tong Xu Yuan Xia Linli Xu Enhong Chen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Pengfei Luo Jingbo Zhou Tong Xu Yuan Xia Linli Xu Enhong Chen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Pengfei Luo Jingbo Zhou Tong Xu Yuan Xia Linli Xu Enhong Chen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ImageScope: توحيد الاسترجاع الموجه باللغة للصور من خلال التفكير التجميعي للنماذج متعددة الوسائط الكبيرة

Pengfei Luo Jingbo Zhou Tong Xu Yuan Xia Linli Xu Enhong Chen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ImageScope: توحيد الاسترجاع الموجه باللغة للصور من خلال التفكير التجميعي للنماذج متعددة الوسائط الكبيرة

Pengfei Luo Jingbo Zhou Tong Xu Yuan Xia Linli Xu Enhong Chen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ImageScope: توحيد الاسترجاع الموجه باللغة للصور من خلال التفكير التجميعي للنماذج متعددة الوسائط الكبيرة

Pengfei Luo Jingbo Zhou Tong Xu Yuan Xia Linli Xu Enhong Chen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters