منذ 8 أشهر

الملخص

استرجاع الصور المركبة (CIR)، والذي يصيغ الاستعلام كمزيج من صورة مرجعية ونص معدل، ظهر كشكل جديد من البحث عن الصور بفضل قدرته المحسنة على التقاط نوايا المستخدم. ومع ذلك، يتطلب تدريب نموذج CIR بطريقة إشرافية جمعًا شاقًا للثلاثيات (الصورة المرجعية، معدل النص، الصورة الهدف). بينما تُلغِي طرق استرجاع الصور المركبة بدون تدريب (ZS-CIR) الحالية الحاجة إلى التدريب على مجموعات بيانات متخصصة في الأسفل، فإنها لا تزال تتطلب تدريبًا إضافيًا على مجموعات بيانات صور كبيرة الحجم. في هذا البحث، نقدم نهجًا خاليًا من التدريب لـ ZS-CIR. يعتمد نهجنا، الذي يُسمى دمج الوسائط المتعددة والتشابه الموزون لـ CIR (WeiMoCIR)، على الفرضية القائلة بأن يمكن دمج الوسائط المرئية والنصية بشكل فعال باستخدام متوسط بسيط وزني. وهذا يسمح ببناء تمثيل الاستعلام مباشرة من الصورة المرجعية ومعدل النص. لتعزيز أداء الاسترجاع بشكل أكبر، نستخدم نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) لتوليد عناوين للصور في قاعدة البيانات وندمج هذه العناوين النصية في حساب التشابه من خلال الجمع بينها والمعلومات المرئية باستخدام المتوسط الوزني. يتميز نهجنا بالبساطة وسهولة التنفيذ، وقد تم التحقق من فعاليته عبر تجارب أجريت على مجموعتي البيانات FashionIQ وCIRR. الرمز البرمجي متاح على الرابط: https://github.com/whats2000/WeiMoCIR.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Ren-Di Wu; Yu-Yen Lin; Huei-Fang Yang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Ren-Di Wu; Yu-Yen Lin; Huei-Fang Yang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Ren-Di Wu; Yu-Yen Lin; Huei-Fang Yang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استرجاع الصور المركبة دون تدريب عبر دمج الوسائط الموزون وتشابه

Ren-Di Wu; Yu-Yen Lin; Huei-Fang Yang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استرجاع الصور المركبة دون تدريب عبر دمج الوسائط الموزون وتشابه

Ren-Di Wu; Yu-Yen Lin; Huei-Fang Yang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استرجاع الصور المركبة دون تدريب عبر دمج الوسائط الموزون وتشابه

Ren-Di Wu; Yu-Yen Lin; Huei-Fang Yang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters