HyperAIHyperAI

Command Palette

Search for a command to run...

CompoDiff: استرجاع الصور المركبة بمرونة باستخدام التباعد الكامن

Gu Geonmo ; Chun Sanghyuk ; Kim Wonjae ; Jun HeeJae ; Kang Yoohoon ; Yun Sangdoo

الملخص

يقترح هذا البحث نموذجًا جديدًا يعتمد على الانتشار، يُسمى CompoDiff، لحل مشكلة استرجاع الصور المركبة بدون تدريب مسبق (ZS-CIR) باستخدام الانتشار الكامن. كما يقدم البحث مجموعة بيانات اصطناعية جديدة باسم SynthTriplets18M، تحتوي على 18.8 مليون صورة مرجعية، وظروف مصاحبة، وثلاثيات الصور المستهدفة المقابلة لتدريب نماذج ZS-CIR. يعمل CompoDiff وSynthTriplets18M على معالجة نقص النماذج السابقة في ZS-CIR، مثل ضعف قابلية التعميم بسبب حجم البيانات الصغير وأنواع الظروف المحدودة. ليس فقط حقق CompoDiff أفضل مستوى أداء جديد في أربع مقاييس للمعايير ZS-CIR، بما في ذلك FashionIQ، CIRR، CIRCO، وGeneCIS، بل إنه أيضًا يمكّن من استرجاع صور أكثر تنوعًا وقابلية للتحكم بقبوله أنواعًا مختلفة من الظروف، مثل النصوص السلبية والظروف القائمة على الأقنعة الصورية. كما يظهر CompoDiff قابلية التحكم في قوة الظروف بين الاستعلامات النصية والصورية والتوازن بين سرعة الاستدلال والأداء، وهي خصائص غير متاحة في طرق ZS-CIR الحالية. يمكن الوصول إلى الرمز البرمجي ومجموعة البيانات عبر الرابط: https://github.com/navervision/CompoDiff


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp