HyperAIHyperAI

Command Palette

Search for a command to run...

الاسترجاع المُوجَّه بالهدف للصور المركَّبة

Haokun Wen Xian Zhang Xuemeng Song Yinwei Wei Liqiang Nie

الملخص

استرجاع الصور المركبة (CIR) هو نموذج جديد ومرن لاسترجاع الصور، يمكنه استرجاع الصورة المستهدفة استجابةً لاستعلام متعدد الوسائط، بما في ذلك صورة مرجعية ونص تعديل مرتبط بها. وعلى الرغم من النجاح الملموس الذي حققته الجهود السابقة، إلا أنها تتجاهل نمذجة العلاقة المتعارضة بين الصورة المرجعية ونص التعديل لتحسين تكوين الاستعلام متعدد الوسائط، وكذلك نمذجة درجة التوافق التكيفية لتعزيز ترتيب الصور المرشحة التي قد تظهر مستويات مختلفة من التوافق مع الاستعلام المقدم. ولحل هاتين المشكلتين، نقترح في هذه الدراسة شبكة استرجاع صور مركبة موجهة بالهدف (TG-CIR). وتحديدًا، تقوم TG-CIR أولاً باستخراج ميزات عالمية ومحليّة موحّدة للصورة المرجعية/الصورة المستهدفة ونص التعديل باستخدام نموذج التدريب المسبق متعدد الوسائط (CLIP) كهيكل أساسي، حيث يتم إدخال تنظيم متعامد لتعزيز الاستقلالية بين ميزات السمات. ثم تقوم TG-CIR بتصميم وحدة تكوين استعلام متعدد الوسائط موجهة بعلاقة الهدف-الاستعلام، تتضمن فرعًا للتكوين بدون هدف (طالب) وفرعًا مبنيًا على الهدف (معلم)، حيث يتم إدخال علاقة الهدف-الاستعلام إلى فرع المعلم لتوجيه نمذجة العلاقة المتعارضة في فرع الطالب. وأخيرًا، بالإضافة إلى خسارة التصنيف التقليدية القائمة على الحزمة، تُدخل TG-CIR بشكل إضافي تنظيمًا موجهًا بدرجة تشابه الهدف القائم على الحزمة لتعزيز عملية التعلم القياسي. وأظهرت التجارب الواسعة على ثلاث مجموعات بيانات معيارية تفوق الطريقة المقترحة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp