HyperAIHyperAI

Command Palette

Search for a command to run...

تدريب ثنائي الاتجاه لاسترجاع الصور المركبة عبر تعليمات النص

Zheyuan Liu Weixuan Sun Yicong Hong Damien Teney Stephen Gould

الملخص

البحث عن الصور المركبة يهدف إلى العثور على صورة مستهدفة بناءً على استعلام متعدد الوسائط يتكون من صورة مرجعية ونص تعديل يصف التغييرات المرغوبة. تتعلم النهج الحالية لحل هذه المهمة الصعبة تحويل الزوج (الصورة المرجعية، نص التعديل) إلى تمثيل صوري يتم مطابقته مع مجموعة كبيرة من الصور. أحد المجالات التي لم يتم استكشافها بعد هو الاتجاه العكسي، الذي يطرح السؤال: أي صورة مرجعية عندما يتم تعديلها كما هو موصوف في النص ستنتج الصورة المستهدفة المعطاة؟ في هذا العمل، نقترح نظام تدريب ثنائي الاتجاه يستفيد من مثل هذه الاستعلامات العكسية ويمكن تطبيقه على هياكل البحث عن الصور المركبة الموجودة بإجراء تغييرات طفيفة فقط، مما يحسن أداء النموذج. لترميز الاستعلام الثنائي الاتجاه، نضيف رمزًا قابلًا للتعلم قبل نص التعديل الذي يحدد اتجاه الاستعلام، ثم نقوم بضبط عناصر النموذج الخاص بتعبئة النص. لا نجري أي تغييرات أخرى على هيكل الشبكة. أظهرت التجارب على مجموعتين قياسيتين من البيانات أن نهجنا الجديد حقق أداءً أفضل من النموذج الأساسي القائم على BLIP (BLIP-based model)، والذي حقق بالفعل أداءً تنافسيًا. تم إطلاق شفرتنا المصدر في https://github.com/Cuberick-Orion/Bi-Blip4CIR.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp