HyperAIHyperAI
منذ 17 أيام

الحقيقة: نمذجة زمنية متقاطعة بين الإطارات والإجراءات باستخدام الانتباه المتقاطع لتقسيم الإجراءات بكفاءة

{Ehsan Elhamifar, Zijia Lu}
الحقيقة: نمذجة زمنية متقاطعة بين الإطارات والإجراءات باستخدام الانتباه المتقاطع لتقسيم الإجراءات بكفاءة
الملخص

نُدرس تقسيم الأفعال تحت الإشراف، والذي يهدف إلى توقع تسميات الأفعال على مستوى كل إطار في الفيديو. لالتقاط الاعتماديات الزمنية على مدى طويل، اعتمدت الطرق السابقة إما على تحسين ميزات الإطارات باستخدام نماذج الترانسفورمر أو على تحسين التنبؤات على مستوى الإطارات باستخدام ميزات أفعال مُدرَّبة. ومع ذلك، فإن هذه الطرق تكون مكلفة من حيث الحوسبة، كما تتجاهل حقيقة أن ميزات الإطارات ومواصفات الأفعال تحتويان على معلومات مكملة يمكن استغلالها لتحسين كلا النوعين من الميزات وتعزيز النمذجة الزمنية. لذلك، نقترح إطارًا فعّالًا يُسمى نموذج التمثيل الزمني المتبادل بين الإطار والفعل (FACT)، والذي يُنفّذ النمذجة الزمنية باستخدام ميزات الإطارات ومواصفات الأفعال بالتوازي، ويستفيد من هذا التوازي لتحقيق تبادل معلومات ثنائي الاتجاه تكراريًا بين الميزات، بهدف تحسينها. يتكون نموذج FACT من (أ) فرع الإطار، الذي يتعلم المعلومات على مستوى الإطار باستخدام التحويلات التلافيفية وميزات الإطارات، (ب) فرع الفعل، الذي يتعلم الاعتماديات على مستوى الفعل باستخدام نماذج الترانسفورمر ورموز الفعل، (ج) انتباهات متبادلة تسمح بالتواصل بين الفرعين. كما نقترح أيضًا خسارة مطابقة جديدة تضمن أن كل رمز فعل يُشفر بشكل فريد قطعة فعلية، وبالتالي يُمكّن من التقاط معناها بشكل أفضل. وبفضل هيكلنا المعماري، يمكننا أيضًا الاستفادة من النصوص المكتوبة المرافقة للفيديوهات لمساعدة عملية تقسيم الأفعال. قُمنا بتقييم نموذج FACT على أربع مجموعات بيانات فيديو (اثنتان من نوع الإدراك الذاتي والاثنتان الآخرتان من نوع الرؤية الخارجية) لتقسيم الأفعال مع وبدون استخدام النصوص، وأظهرت النتائج أن النموذج يُحسّن بشكل كبير دقة أفضل النماذج الحالية، مع تحقيق تكلفة حوسبة أقل (أسرع بثلاث مرات) مقارنة بالطرق القائمة على الترانسفورمر.