HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم التكويني لاستعلام الصورة النصي لاسترجاع الصور

Muhammad Umer Anwaar; Egor Labintcev; Martin Kleinsteuber

الملخص

في هذه الورقة، نستكشف مشكلة استرجاع الصور من قاعدة بيانات بناءً على استعلام متعدد الوسائط (صورة-نص). بصفة خاصة، يحث النص الاستعلامي على بعض التعديلات في صورة الاستعلام، والهدف هو استرجاع الصور التي تحتوي على التعديلات المرغوبة. مثال على ذلك، مستخدم لمنصة التجارة الإلكترونية يرغب في شراء فستان يبدو مشابهًا لفستان صديقتها، ولكن الفستان يجب أن يكون أبيض اللون مع حزام ريبون. في هذه الحالة، نرغب في أن يقوم الخوارزمية باسترجاع بعض الفساتين مع التعديلات المرغوبة في صورة الاستعلام. نقترح نموذجًا يستند إلى الترميز الذاتي، وهو ComposeAE (Compose Autoencoder)، لتعلم تركيب استعلام الصورة والنص لاسترجاع الصور. نعتمد على منهجية تعلم المقاييس العميقة ونتعلم مقاييس تقرب تركيب صورة المصدر واستعلام النص إلى الصور المستهدفة. كما نقترح قيد التناظر الدوار على المشكلة التحسينية. يتمكن منهجنا من تجاوز أفضل الطُرق الحالية TIRG \cite{TIRG} في ثلاثة مجموعات بيانات معيارية وهي: MIT-States، Fashion200k و Fashion IQ. للتأكد من المقارنة العادلة، قدمنا خطوط أساس قوية من خلال تعزيز طريقة TIRG. ولضمان إمكانية إعادة إنتاج النتائج، ننشر كودنا هنا: \url{https://github.com/ecom-research/ComposeAE}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp