HyperAIHyperAI
منذ 2 أشهر

إعادة النظر في فصل المقدمة والخلفية في تحديد الأنشطة الزمنية بطرق الإشراف الضعيف: نهج يستند إلى التجميع

Qinying Liu; Zilei Wang; Shenghai Rong; Junjie Li; Yixin Zhang
إعادة النظر في فصل المقدمة والخلفية في تحديد الأنشطة الزمنية بطرق الإشراف الضعيف: نهج يستند إلى التجميع
الملخص

التصنيف الزمني للأفعال تحت الإشراف الضعيف يهدف إلى تحديد مواقع مثيلات الأفعال في الفيديوهات باستخدام فقط تسميات الأفعال على مستوى الفيديو. تركز الأساليب الحالية بشكل أساسي على أنابيب التصنيف للتحديد، والتي تقوم بتحسين التنبؤ على مستوى القطع (snippets) باستخدام خسارة تصنيف الفيديو. ومع ذلك، فإن هذا الصياغة تعاني من الاختلاف بين التصنيف والكشف، مما يؤدي إلى فصل غير دقيق بين قطع المقدمة والخلفية (F&B). لحل هذه المشكلة، نقترح استكشاف الهيكل الكامن بين القطع من خلال اللجوء إلى تجميع القطع بدون إشراف، بدلاً من الاعتماد بشكل كبير على خسارة تصنيف الفيديو. وبشكل محدد، نقترح خوارزمية جديدة للتجميع المستند إلى فصل المقدمة والخلفية. تتكون هذه الخوارزمية من مكونين أساسيين: مكون تجميع القطع يقوم بتجميع القطع في عدة مجموعات كامنة، ومكون تصنيف المجموعات يقوم بتصنيف كل مجموعة كمقدمة أو خلفية. نظرًا لعدم وجود تسميات حقيقية لتدريب هذين المكونين، نقدم آلية تسمية ذاتية موحدة تستند إلى النقل الأمثل لإنتاج تسميات وهمية عالية الجودة تناسب عدة توزيعات أولية محتملة. هذا يضمن أن يمكن ربط تعيينات المجموعات للقطع بدقة مع تسمياتها F&B، مما يعزز فصل المقدمة والخلفية.لقد قمنا بتقييم طريقة عملنا على ثلاثة مقاييس: THUMOS14 وActivityNet v1.2 وv1.3. حققت طريقة عملنا أداءً واعدًا على جميع المقاييس الثلاثة بينما تكون أخف وزنًا بكثير من الأساليب السابقة. الرمز البرمجي متاح على الرابط التالي: https://github.com/Qinying-Liu/CASE

إعادة النظر في فصل المقدمة والخلفية في تحديد الأنشطة الزمنية بطرق الإشراف الضعيف: نهج يستند إلى التجميع | أحدث الأوراق البحثية | HyperAI