HyperAIHyperAI

Command Palette

Search for a command to run...

استرجاع الصور المركبة دون تدريب عبر دمج الوسائط الموزون وتشابه

Ren-Di Wu; Yu-Yen Lin; Huei-Fang Yang

الملخص

استرجاع الصور المركبة (CIR)، والذي يصيغ الاستعلام كمزيج من صورة مرجعية ونص معدل، ظهر كشكل جديد من البحث عن الصور بفضل قدرته المحسنة على التقاط نوايا المستخدم. ومع ذلك، يتطلب تدريب نموذج CIR بطريقة إشرافية جمعًا شاقًا للثلاثيات (الصورة المرجعية، معدل النص، الصورة الهدف). بينما تُلغِي طرق استرجاع الصور المركبة بدون تدريب (ZS-CIR) الحالية الحاجة إلى التدريب على مجموعات بيانات متخصصة في الأسفل، فإنها لا تزال تتطلب تدريبًا إضافيًا على مجموعات بيانات صور كبيرة الحجم. في هذا البحث، نقدم نهجًا خاليًا من التدريب لـ ZS-CIR. يعتمد نهجنا، الذي يُسمى دمج الوسائط المتعددة والتشابه الموزون لـ CIR (WeiMoCIR)، على الفرضية القائلة بأن يمكن دمج الوسائط المرئية والنصية بشكل فعال باستخدام متوسط بسيط وزني. وهذا يسمح ببناء تمثيل الاستعلام مباشرة من الصورة المرجعية ومعدل النص. لتعزيز أداء الاسترجاع بشكل أكبر، نستخدم نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) لتوليد عناوين للصور في قاعدة البيانات وندمج هذه العناوين النصية في حساب التشابه من خلال الجمع بينها والمعلومات المرئية باستخدام المتوسط الوزني. يتميز نهجنا بالبساطة وسهولة التنفيذ، وقد تم التحقق من فعاليته عبر تجارب أجريت على مجموعتي البيانات FashionIQ وCIRR. الرمز البرمجي متاح على الرابط: https://github.com/whats2000/WeiMoCIR.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp