HyperAIHyperAI

Command Palette

Search for a command to run...

ما هو الحد الأدنى من السياق الزمني الطويل الأمد اللازم لتقسيم الإجراءات؟

Emad Bahrami Gianpiero Francesca Juergen Gall

الملخص

نمذجة السياق الطويل الأمد في الفيديوهات أمر بالغ الأهمية لعدد من المهام الدقيقة، بما في ذلك تقسيم الأفعال الزمنية. يظل سؤال مثير للاهتمام مفتوحًا حتى الآن: كم من السياق الزمني الطويل الأمد يحتاجه النموذج لتحقيق الأداء الأمثل؟ على الرغم من أن نماذج الترانسفورمر قادرة على نمذجة السياق الزمني الطويل الأمد في الفيديوهات، إلا أن هذا يصبح مكلفًا حسابيًا جدًا عند التعامل مع الفيديوهات الطويلة. لذلك، تتبّع الدراسات الحديثة لتقسيم الأفعال الزمنية دمجًا بين الشبكات التلافيفية الزمنية (Temporal Convolutional Networks) والانتباه الذاتي (self-attentions)، حيث يتم حساب الانتباه فقط في نافذة زمنية محلية. وعلى الرغم من أن هذه النماذج تُظهر نتائج جيدة، إلا أن أداؤها محدود بسبب عدم قدرتها على التقاط السياق الكامل للفيديو. في هذا العمل، نسعى إلى الإجابة على السؤال: كم من السياق الزمني الطويل الأمد مطلوب لتقسيم الأفعال الزمنية؟ وذلك من خلال تقديم نموذج مبني على الترانسفورمر يعتمد على الانتباه النادر (sparse attention) لالتقاط السياق الكامل للفيديو. قارنا نموذجنا بأحدث النماذج المُعلَّمة على ثلاث مجموعات بيانات لتقسيم الأفعال الزمنية، وهي: 50Salads، Breakfast، وAssembly101. أظهرت تجاربنا أن نمذجة السياق الكامل للفيديو أمر ضروري لتحقيق أفضل أداء في مهمة تقسيم الأفعال الزمنية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ما هو الحد الأدنى من السياق الزمني الطويل الأمد اللازم لتقسيم الإجراءات؟ | مستندات | HyperAI