الفصل في الأفعال مع الوعي بالتبديل من خلال محاذاة الإطار إلى الجزء دون إشراف

يقدم هذا البحث إطارًا غير مشرف مستندًا إلى التحويلات (transformer) لتقسيم الأنشطة الزمنية، يستفيد ليس فقط من مؤشرات المستوى الإطاري (frame-level) ولكن أيضًا من مؤشرات المستوى الفرعي (segment-level). وهذا يختلف عن الطرق السابقة التي تعتمد غالبًا على المعلومات الإطارية فقط. تبدأ نهجنا بوحدة تنبؤ على مستوى الإطار تقوم بتقدير فئات الأفعال الإطارية عبر مُشفِّر تحويلة (transformer encoder). يتم تدريب وحدة التنبؤ على مستوى الإطار بطريقة غير مشرفة باستخدام النقل الأمثل الزمني (temporal optimal transport). للحصول على استفادة من المعلومات الفرعية، نستخدم وحدة تنبؤ على مستوى الفرع ووحدة تناسق بين الإطارات والفروع. تتضمن الوحدة الأولى مُفكِّك تحويلة (transformer decoder) لتقدير سجلات الفيديو، بينما تقوم الوحدة الثانية بمطابقة الخصائص الإطارية مع الخصائص الفرعية، مما ينتج عنه نتائج تقسيم واعية بالتبديل (permutation-aware). بالإضافة إلى ذلك، مستوحىً من النقل الأمثل الزمني، قمنا بتقديم علامات زائفة بسيطة ولكنها فعالة للتدريب غير المشرف للوحدات المذكورة أعلاه. أظهرت تجاربنا على أربع قواعد بيانات عامة، وهي 50 سلطة، تعليمات YouTube، إفطار، وتجميع سطح المكتب أن نهجنا يحقق أداءً مكافئًا أو أفضل من الطرق السابقة في تقسيم الأنشطة الزمنية بشكل غير مشرف.