HyperAIHyperAI
منذ 2 أشهر

النقل المثالي غير المتوازن مع التجانس الزمني لتقسيم الأفعال بدون إشراف

Ming Xu; Stephen Gould
النقل المثالي غير المتوازن مع التجانس الزمني لتقسيم الأفعال بدون إشراف
الملخص

نقترح نهجًا جديدًا لمهمة تقسيم الأفعال في مقاطع الفيديو الطويلة غير المقصوصة، يعتمد على حل مشكلة النقل الأمثل. من خلال ترميز أولوية التوافق الزمني في مشكلة غروmov-واسرشتاين (Gromov-Wasserstein)، نتمكن من فك رموز تقسيم متوافق زمنيًا من مصفوفة تكلفة الارتباط/المطابقة الضوضائية بين إطارات الفيديو وفئات الأفعال. بخلاف النهج السابقة، لا يتطلب أسلوبنا معرفة ترتيب الأفعال في الفيديو للحصول على توافق زمني. بالإضافة إلى ذلك، يمكن حل مشكلة غروmov-واسرشتاين الناتجة (المدمجة) بكفاءة على وحدات معالجة الرسومات (GPUs) باستخدام عدد قليل من عمليات الهبوط المرآتي المُسَتَوْحَد. نوضح فعالية طريقتنا في إطار التعلم بدون إشراف، حيث يتم استخدامها لتوليد علامات زائفة لتدريب الذات. نقيم نهج التقسيم الخاص بنا وأنبوب التعلم بدون إشراف على مجموعات بيانات Breakfast و50-Salads وYouTube Instructions وDesktop Assembly، مما يؤدي إلى تحقيق أفضل النتائج الحالية لمهمة تقسيم أفعال الفيديو بدون إشراف.

النقل المثالي غير المتوازن مع التجانس الزمني لتقسيم الأفعال بدون إشراف | أحدث الأوراق البحثية | HyperAI