HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

الحقيقة: نمذجة زمنية متقاطعة بين الإطارات والإجراءات باستخدام الانتباه المتقاطع لتقسيم الإجراءات بكفاءة

{Ehsan Elhamifar Zijia Lu}

الحقيقة: نمذجة زمنية متقاطعة بين الإطارات والإجراءات باستخدام الانتباه المتقاطع لتقسيم الإجراءات بكفاءة

الملخص

نُدرس تقسيم الأفعال تحت الإشراف، والذي يهدف إلى توقع تسميات الأفعال على مستوى كل إطار في الفيديو. لالتقاط الاعتماديات الزمنية على مدى طويل، اعتمدت الطرق السابقة إما على تحسين ميزات الإطارات باستخدام نماذج الترانسفورمر أو على تحسين التنبؤات على مستوى الإطارات باستخدام ميزات أفعال مُدرَّبة. ومع ذلك، فإن هذه الطرق تكون مكلفة من حيث الحوسبة، كما تتجاهل حقيقة أن ميزات الإطارات ومواصفات الأفعال تحتويان على معلومات مكملة يمكن استغلالها لتحسين كلا النوعين من الميزات وتعزيز النمذجة الزمنية. لذلك، نقترح إطارًا فعّالًا يُسمى نموذج التمثيل الزمني المتبادل بين الإطار والفعل (FACT)، والذي يُنفّذ النمذجة الزمنية باستخدام ميزات الإطارات ومواصفات الأفعال بالتوازي، ويستفيد من هذا التوازي لتحقيق تبادل معلومات ثنائي الاتجاه تكراريًا بين الميزات، بهدف تحسينها. يتكون نموذج FACT من (أ) فرع الإطار، الذي يتعلم المعلومات على مستوى الإطار باستخدام التحويلات التلافيفية وميزات الإطارات، (ب) فرع الفعل، الذي يتعلم الاعتماديات على مستوى الفعل باستخدام نماذج الترانسفورمر ورموز الفعل، (ج) انتباهات متبادلة تسمح بالتواصل بين الفرعين. كما نقترح أيضًا خسارة مطابقة جديدة تضمن أن كل رمز فعل يُشفر بشكل فريد قطعة فعلية، وبالتالي يُمكّن من التقاط معناها بشكل أفضل. وبفضل هيكلنا المعماري، يمكننا أيضًا الاستفادة من النصوص المكتوبة المرافقة للفيديوهات لمساعدة عملية تقسيم الأفعال. قُمنا بتقييم نموذج FACT على أربع مجموعات بيانات فيديو (اثنتان من نوع الإدراك الذاتي والاثنتان الآخرتان من نوع الرؤية الخارجية) لتقسيم الأفعال مع وبدون استخدام النصوص، وأظهرت النتائج أن النموذج يُحسّن بشكل كبير دقة أفضل النماذج الحالية، مع تحقيق تكلفة حوسبة أقل (أسرع بثلاث مرات) مقارنة بالطرق القائمة على الترانسفورمر.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
action-segmentation-on-breakfast-1FACT (efficient hybrid of convolution and transformer model)
Acc: 76.2
Average F1: 74.7
Edit: 79.7
F1@10%: 81.4
F1@25%: 76.5
F1@50%: 66.2
action-segmentation-on-gtea-1FACT
Acc: 84.5
Edit: 93.5
F1@10%: 96.1
F1@25%: 95.6
F1@50%: 87.5

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الحقيقة: نمذجة زمنية متقاطعة بين الإطارات والإجراءات باستخدام الانتباه المتقاطع لتقسيم الإجراءات بكفاءة | الأوراق البحثية | HyperAI