HyperAIHyperAI
منذ 2 أشهر

MovingFashion: معيار لتحدي الفيديو إلى المتجر

Marco Godi; Christian Joppi; Geri Skenderi; Marco Cristani
MovingFashion: معيار لتحدي الفيديو إلى المتجر
الملخص

استعادة الملابس التي تظهر في مقاطع الفيديو على وسائل التواصل الاجتماعي (إنستغرام، تيك توك) هي أحدث مجال في عالم الموضة الإلكترونية، ويشار إليها في أدبيات رؤية الحاسوب بـ "الفيديو إلى المتجر" (video-to-shop). في هذا البحث، نقدم مجموعة البيانات العامة الأولى للتعامل مع هذا التحدي، وهي مجموعة بيانات MovingFashion. تتكون مجموعة بيانات MovingFashion من 14855 مقطع فيديو اجتماعي، كل منها مرتبط بصور "متجر" إلكترونية حيث يتم تصوير القطع الملبوسة بوضوح. بالإضافة إلى ذلك، نقدم شبكة لاستعادة صور المتجر في هذا السيناريو، والتي أطلقنا عليها اسم SEAM Match-RCNN. يتم تدريب النموذج باستخدام التكيف بين مجال الصورة والفيديو، مما يسمح باستخدام سلاسل الفيديو حيث يتم توفير ارتباطها فقط بصورة متجر، مما يلغي الحاجة إلى ملايين الصناديق المحيطة المشخصة. تقوم SEAM Match-RCNN ببناء تمثيل مدمج، حيث يكون مجموعًا مشددًا عليه الانتباه من عدد قليل من الإطارات (10) لمقطع الفيديو الاجتماعي كافيًا لتحديد المنتج الصحيح ضمن أول 5 عناصر مستعادة من معرض يحتوي على أكثر من 14 ألف عنصر متجر بدقة تبلغ 80%. وهذا يوفر أفضل الأداء على مجموعة بيانات MovingFashion عند المقارنة بشكل شامل مع الأساليب الرائدة ذات الصلة والأسس البديلة.

MovingFashion: معيار لتحدي الفيديو إلى المتجر | أحدث الأوراق البحثية | HyperAI