استرجاع الصور المركبة لتحويل المجال بدون تدريب

يتناول هذا العمل استرجاع الصور المركبة في سياق تحويل المجال، حيث يتم استرجاع محتوى صورة الاستفسار في المجال المحدد بواسطة نص الاستفسار. نوضح أن نموذجًا قويًا للرؤية واللغة يوفر القوة الوصفية الكافية دون الحاجة إلى تدريب إضافي. يتم رسم خريطة لصورة الاستفسار في فضاء مدخلات النص باستخدام الانعكاس النصي. على عكس الممارسة الشائعة التي تقوم بالانعكاس في الفضاء المستمر للرموز النصية، نحن نستخدم فضاء الكلمات المتقطع عبر بحث أقرب الجيران في مفردات النص. من خلال هذا الانعكاس، يتم رسم خريطة للصورة بشكل طري في جميع أنحاء المفردات وتعزيزها باستخدام تضخيم يستند إلى الاسترجاع. يتم استرجاع صور قاعدة البيانات بواسطة مجموعة مرجحة من استفسارات النص التي تجمع بين الكلمات المرسومة وخريطة المجال. يتفوق طرقنا بشكل كبير على الأعمال السابقة في مقاييس القياس القياسية والمقدمة حديثًا. الرمز البرمجي: https://github.com/NikosEfth/freedom