HyperAIHyperAI
منذ 2 أشهر

تدريب ثنائي الاتجاه لاسترجاع الصور المركبة عبر تعليمات النص

Liu, Zheyuan ; Sun, Weixuan ; Hong, Yicong ; Teney, Damien ; Gould, Stephen
تدريب ثنائي الاتجاه لاسترجاع الصور المركبة عبر تعليمات النص
الملخص

البحث عن الصور المركبة يهدف إلى العثور على صورة مستهدفة بناءً على استعلام متعدد الوسائط يتكون من صورة مرجعية ونص تعديل يصف التغييرات المرغوبة. تتعلم النهج الحالية لحل هذه المهمة الصعبة تحويل الزوج (الصورة المرجعية، نص التعديل) إلى تمثيل صوري يتم مطابقته مع مجموعة كبيرة من الصور. أحد المجالات التي لم يتم استكشافها بعد هو الاتجاه العكسي، الذي يطرح السؤال: أي صورة مرجعية عندما يتم تعديلها كما هو موصوف في النص ستنتج الصورة المستهدفة المعطاة؟ في هذا العمل، نقترح نظام تدريب ثنائي الاتجاه يستفيد من مثل هذه الاستعلامات العكسية ويمكن تطبيقه على هياكل البحث عن الصور المركبة الموجودة بإجراء تغييرات طفيفة فقط، مما يحسن أداء النموذج. لترميز الاستعلام الثنائي الاتجاه، نضيف رمزًا قابلًا للتعلم قبل نص التعديل الذي يحدد اتجاه الاستعلام، ثم نقوم بضبط عناصر النموذج الخاص بتعبئة النص. لا نجري أي تغييرات أخرى على هيكل الشبكة. أظهرت التجارب على مجموعتين قياسيتين من البيانات أن نهجنا الجديد حقق أداءً أفضل من النموذج الأساسي القائم على BLIP (BLIP-based model)، والذي حقق بالفعل أداءً تنافسيًا. تم إطلاق شفرتنا المصدر في https://github.com/Cuberick-Orion/Bi-Blip4CIR.