HyperAIHyperAI
منذ 17 أيام

CurlingNet: التعلم التركيبي بين الصور والنصوص لبيانات Fashion IQ

Youngjae Yu, Seunghwan Lee, Yuncheol Choi, Gunhee Kim
CurlingNet: التعلم التركيبي بين الصور والنصوص لبيانات Fashion IQ
الملخص

نقدّم نهجًا يُسمّى CurlingNet يمكنه قياس المسافة الدلالية لتركيب التضمينات المرئية-النصية. ولتعلّم تركيبة فعّالة للصورة والنص بالنسبة للبيانات في مجال الموضة، تُقدّم نموذجنا مكوّنين رئيسيين كما يلي: أولاً، يُحقّق "التوصيل" (Delivery) انتقال الصورة المصدرية في فضاء التضمين. ثانيًا، يُركّز "المسح" (Sweeping) على المكوّنات المرتبطة بالاستعلام في الصور العصرية داخل فضاء التضمين. ونستخدم آلية تمرير حسب القنوات (channel-wise gating mechanism) لتحقيق ذلك. ويتفوّق نموذجنا الفردي على النماذج السابقة الأكثر تقدّمًا في تركيب الصورة والنص، بما في ذلك TIRG وFiLM. وقد شاركنا في تحدي Fashion-IQ الأول في ICCV 2019، حيث حقّق تجميع نماذجنا واحدة من أفضل الأداءات.

CurlingNet: التعلم التركيبي بين الصور والنصوص لبيانات Fashion IQ | أحدث الأوراق البحثية | HyperAI