HyperAIHyperAI
منذ 12 أيام

تحسين تقسيم الإجراءات باستخدام تمثيلات فيديو هيراركية

{Dongheui Lee, Hyemin Ahn}
تحسين تقسيم الإجراءات باستخدام تمثيلات فيديو هيراركية
الملخص

في هذه الورقة، نقترح نموذج التصحيح التسلسلي لتقسيم الأفعال (HASR)، الذي يمكنه تحسين نتائج تقسيم الأفعال الزمنية الناتجة عن نماذج مختلفة من خلال فهم السياق العام للفيديو المعطى بطريقة تسلسلية. عند تقدير نموذج الأساس (backbone) لتقسيم الأفعال لكيفية تقسيم الفيديو المعطى، يستخرج نموذجنا تمثيلات على مستوى القطع بناءً على السمات على مستوى الإطارات، ويستخرج تمثيلاً على مستوى الفيديو بناءً على التمثيلات على مستوى القطع. وباستناد إلى هذه التمثيلات التسلسلية، يمكن لنموذجنا الإشارة إلى السياق العام للفيديو بالكامل، وتوقع كيفية تصحيح التصنيفات الخاصة بالقطع التي لا تتماشى مع السياق. يمكن دمج HASR في مختلف نماذج تقسيم الأفعال (مثل MS-TCN، SSTDA، ASRF)، وتحسين أداء النماذج الرائدة بناءً على ثلاث مجموعات بيانات صعبة (GTEA، 50Salads، وBreakfast). على سبيل المثال، في مجموعة بيانات 50Salads، يرتفع مقياس التصحيح الجزئي من 67.9% إلى 77.4% (لـ MS-TCN)، ومن 75.8% إلى 77.3% (لـ SSTDA)، ومن 79.3% إلى 81.0% (لـ ASRF). بالإضافة إلى ذلك، يمكن لنموذجنا تحسين نتائج التقسيم الناتجة عن نموذج أساس غير معروف (unseen backbone)، والذي لم يُستخدم أثناء تدريب HASR. تُعد هذه القدرة على التعميم ميزة مهمة تجعل HASR أداة فعالة لتعزيز الطرق الحالية لتقسيم الأفعال الزمنية. يتوفر الكود الخاص بنا على الرابط التالي: https://github.com/cotton-ahn/HASR_iccv2021.

تحسين تقسيم الإجراءات باستخدام تمثيلات فيديو هيراركية | أحدث الأوراق البحثية | HyperAI