HyperAIHyperAI
منذ 2 أشهر

استرجاع الصور المركبة دون تدريب عبر دمج الوسائط الموزون وتشابه

Ren-Di Wu; Yu-Yen Lin; Huei-Fang Yang
استرجاع الصور المركبة دون تدريب عبر دمج الوسائط الموزون وتشابه
الملخص

استرجاع الصور المركبة (CIR)، والذي يصيغ الاستعلام كمزيج من صورة مرجعية ونص معدل، ظهر كشكل جديد من البحث عن الصور بفضل قدرته المحسنة على التقاط نوايا المستخدم. ومع ذلك، يتطلب تدريب نموذج CIR بطريقة إشرافية جمعًا شاقًا للثلاثيات (الصورة المرجعية، معدل النص، الصورة الهدف). بينما تُلغِي طرق استرجاع الصور المركبة بدون تدريب (ZS-CIR) الحالية الحاجة إلى التدريب على مجموعات بيانات متخصصة في الأسفل، فإنها لا تزال تتطلب تدريبًا إضافيًا على مجموعات بيانات صور كبيرة الحجم. في هذا البحث، نقدم نهجًا خاليًا من التدريب لـ ZS-CIR. يعتمد نهجنا، الذي يُسمى دمج الوسائط المتعددة والتشابه الموزون لـ CIR (WeiMoCIR)، على الفرضية القائلة بأن يمكن دمج الوسائط المرئية والنصية بشكل فعال باستخدام متوسط بسيط وزني. وهذا يسمح ببناء تمثيل الاستعلام مباشرة من الصورة المرجعية ومعدل النص. لتعزيز أداء الاسترجاع بشكل أكبر، نستخدم نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) لتوليد عناوين للصور في قاعدة البيانات وندمج هذه العناوين النصية في حساب التشابه من خلال الجمع بينها والمعلومات المرئية باستخدام المتوسط الوزني. يتميز نهجنا بالبساطة وسهولة التنفيذ، وقد تم التحقق من فعاليته عبر تجارب أجريت على مجموعتي البيانات FashionIQ وCIRR. الرمز البرمجي متاح على الرابط: https://github.com/whats2000/WeiMoCIR.

استرجاع الصور المركبة دون تدريب عبر دمج الوسائط الموزون وتشابه | أحدث الأوراق البحثية | HyperAI