HyperAIHyperAI
منذ 11 أيام

ما هو الحد الأدنى من السياق الزمني الطويل الأمد اللازم لتقسيم الإجراءات؟

Emad Bahrami, Gianpiero Francesca, Juergen Gall
ما هو الحد الأدنى من السياق الزمني الطويل الأمد اللازم لتقسيم الإجراءات؟
الملخص

نمذجة السياق الطويل الأمد في الفيديوهات أمر بالغ الأهمية لعدد من المهام الدقيقة، بما في ذلك تقسيم الأفعال الزمنية. يظل سؤال مثير للاهتمام مفتوحًا حتى الآن: كم من السياق الزمني الطويل الأمد يحتاجه النموذج لتحقيق الأداء الأمثل؟ على الرغم من أن نماذج الترانسفورمر قادرة على نمذجة السياق الزمني الطويل الأمد في الفيديوهات، إلا أن هذا يصبح مكلفًا حسابيًا جدًا عند التعامل مع الفيديوهات الطويلة. لذلك، تتبّع الدراسات الحديثة لتقسيم الأفعال الزمنية دمجًا بين الشبكات التلافيفية الزمنية (Temporal Convolutional Networks) والانتباه الذاتي (self-attentions)، حيث يتم حساب الانتباه فقط في نافذة زمنية محلية. وعلى الرغم من أن هذه النماذج تُظهر نتائج جيدة، إلا أن أداؤها محدود بسبب عدم قدرتها على التقاط السياق الكامل للفيديو. في هذا العمل، نسعى إلى الإجابة على السؤال: كم من السياق الزمني الطويل الأمد مطلوب لتقسيم الأفعال الزمنية؟ وذلك من خلال تقديم نموذج مبني على الترانسفورمر يعتمد على الانتباه النادر (sparse attention) لالتقاط السياق الكامل للفيديو. قارنا نموذجنا بأحدث النماذج المُعلَّمة على ثلاث مجموعات بيانات لتقسيم الأفعال الزمنية، وهي: 50Salads، Breakfast، وAssembly101. أظهرت تجاربنا أن نمذجة السياق الكامل للفيديو أمر ضروري لتحقيق أفضل أداء في مهمة تقسيم الأفعال الزمنية.

ما هو الحد الأدنى من السياق الزمني الطويل الأمد اللازم لتقسيم الإجراءات؟ | أحدث الأوراق البحثية | HyperAI