HyperAIHyperAI

Command Palette

Search for a command to run...

MovingFashion: معيار لتحدي الفيديو إلى المتجر

Marco Godi*1 Christian Joppi*1 Geri Skenderi*1 Marco Cristani1,2

الملخص

استعادة الملابس التي تظهر في مقاطع الفيديو على وسائل التواصل الاجتماعي (إنستغرام، تيك توك) هي أحدث مجال في عالم الموضة الإلكترونية، ويشار إليها في أدبيات رؤية الحاسوب بـ "الفيديو إلى المتجر" (video-to-shop). في هذا البحث، نقدم مجموعة البيانات العامة الأولى للتعامل مع هذا التحدي، وهي مجموعة بيانات MovingFashion. تتكون مجموعة بيانات MovingFashion من 14855 مقطع فيديو اجتماعي، كل منها مرتبط بصور "متجر" إلكترونية حيث يتم تصوير القطع الملبوسة بوضوح. بالإضافة إلى ذلك، نقدم شبكة لاستعادة صور المتجر في هذا السيناريو، والتي أطلقنا عليها اسم SEAM Match-RCNN. يتم تدريب النموذج باستخدام التكيف بين مجال الصورة والفيديو، مما يسمح باستخدام سلاسل الفيديو حيث يتم توفير ارتباطها فقط بصورة متجر، مما يلغي الحاجة إلى ملايين الصناديق المحيطة المشخصة. تقوم SEAM Match-RCNN ببناء تمثيل مدمج، حيث يكون مجموعًا مشددًا عليه الانتباه من عدد قليل من الإطارات (10) لمقطع الفيديو الاجتماعي كافيًا لتحديد المنتج الصحيح ضمن أول 5 عناصر مستعادة من معرض يحتوي على أكثر من 14 ألف عنصر متجر بدقة تبلغ 80%. وهذا يوفر أفضل الأداء على مجموعة بيانات MovingFashion عند المقارنة بشكل شامل مع الأساليب الرائدة ذات الصلة والأسس البديلة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MovingFashion: معيار لتحدي الفيديو إلى المتجر | مستندات | HyperAI