الملخص

يتناول هذا العمل استرجاع الصور المركبة في سياق تحويل المجال، حيث يتم استرجاع محتوى صورة الاستفسار في المجال المحدد بواسطة نص الاستفسار. نوضح أن نموذجًا قويًا للرؤية واللغة يوفر القوة الوصفية الكافية دون الحاجة إلى تدريب إضافي. يتم رسم خريطة لصورة الاستفسار في فضاء مدخلات النص باستخدام الانعكاس النصي. على عكس الممارسة الشائعة التي تقوم بالانعكاس في الفضاء المستمر للرموز النصية، نحن نستخدم فضاء الكلمات المتقطع عبر بحث أقرب الجيران في مفردات النص. من خلال هذا الانعكاس، يتم رسم خريطة للصورة بشكل طري في جميع أنحاء المفردات وتعزيزها باستخدام تضخيم يستند إلى الاسترجاع. يتم استرجاع صور قاعدة البيانات بواسطة مجموعة مرجحة من استفسارات النص التي تجمع بين الكلمات المرسومة وخريطة المجال. يتفوق طرقنا بشكل كبير على الأعمال السابقة في مقاييس القياس القياسية والمقدمة حديثًا. الرمز البرمجي: https://github.com/NikosEfth/freedom

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار