HyperAIHyperAI
منذ 12 أيام

التعلم متعدد المستويات للدلالات والسلوك التكيفي للتحديد الزمني للإجراءات المُعَلَّم ضعيفًا

{Cerui Dong, Zilei Wang, Zhilin Li}
الملخص

تهدف التوصيف الزمني للإجراءات الضعيف المراقب إلى تحديد وتحديد مواقع حالات الإجراءات في مقاطع الفيديو غير المُقطَّعة باستخدام علامات فقط على مستوى الفيديو. عادةً، تعتمد معظم الطرق على إطار عمل التعلم متعدد المثيلات (Multiple Instance Learning) الذي يستخدم استراتيجية الـ top-K لاختيار المقاطع البارزة تمثيلاً للفيديو بأكمله. نتيجة لذلك، لا يمكن تعلُّم معلومات الفيديو الدقيقة، مما يؤدي إلى أداء ضعيف في تصنيف الإجراءات وتحديد مواقعها. في هذا البحث، نقترح شبكة تعلُّم متعددة المستويات للسياق والعملية التلقائية (SAL)، والتي تتكون أساساً من فرع تعلُّم السياق متعدد المستويات (MSL) وفرع تعلُّم العملية التلقائية (AAL). يُدخل فرع MSL معاني فيديو من الدرجة الثانية، التي يمكنها التقاط المعلومات الدقيقة داخل الفيديو وتحسين أداء التصنيف على مستوى الفيديو. علاوةً على ذلك، نُطبّق هذه المعاني من الدرجة الثانية على مقاطع الإجراء لتعزيز الفروق بين الإجراءات المختلفة. أما فرع AAL، فيستخدم علامات افتراضية (pseudo labels) لتعلم معلومات الإجراءات المستقلة عن الفئة، ويُطبّق استراتيجية مزج مقاطع الفيديو (mix-up) لتعزيز قدرة التعميم للخلفية، ويُضيف قناع عملية تلقائي (adaptive actionness mask) لموازنة الجودة والكمية للعلامات الافتراضية، مما يُحسّن استقرار التدريب. أظهرت التجارب الواسعة أن SAL تحقق نتائج من أفضل النتائج الحالية على ثلاث معايير (benchmarks). الكود: https://github.com/lizhilin-ustc/SAL

التعلم متعدد المستويات للدلالات والسلوك التكيفي للتحديد الزمني للإجراءات المُعَلَّم ضعيفًا | أحدث الأوراق البحثية | HyperAI