HyperAIHyperAI

Command Palette

Search for a command to run...

هل نحن حقًا بحاجة إلى التحويلات الزمنية في تقسيم الإجراءات؟

Dazhao Du Bing Su Yu Li Zhongang Qi Lingyu Si Ying Shan

الملخص

تم تحقيق تقدم كبير في تصنيف الإجراءات، لكن مسألة تقسيم الإجراءات وتمييزها من مقاطع الفيديو الطويلة غير المُعدّلة تظل تحديًا كبيرًا. تتركز معظم الطرق الرائدة حاليًا على تصميم نماذج تعتمد على التحويلات الزمنية (temporal convolutions)، إلا أن المرونة المحدودة لهذه التحويلات وصعوبة نمذجة الاعتماديات الزمنية الطويلة تحد من إمكانات هذه النماذج. وقد تم مؤخرًا استخدام النماذج القائمة على المُحَوِّل (Transformer) في مهام متعددة بفضل قدرتها المُتَعَدِّدة على معالجة التسلسلات وتكيفها، لكن نقص الانحياز الاستقرائي (inductive bias) وقلة الكفاءة في التعامل مع تسلسلات الفيديو الطويلة يحدان من تطبيق المُحَوِّل في تقسيم الإجراءات. في هذه الورقة، نصمم نموذجًا يعتمد بالكامل على المُحَوِّل دون استخدام تحويلات زمنية، وذلك من خلال دمج عينة زمنية، ونسميه "المُحَوِّل-يوف (TUT)"، أي Temporal U-Transformer. تقلل بنية U-Transformer من التعقيد، مع إدخال انحياز استقرائي يُشير إلى أن الإطارات المجاورة أكثر احتمالًا أن تنتمي إلى نفس الفئة، لكن إدخال دقة منخفضة (coarse resolutions) يؤدي إلى تصنيف خاطئ للحدود. لاحظنا أن توزيع التشابه بين إطار الحدود وإطاراته المجاورة يعتمد على ما إذا كان هذا الإطار يمثل بداية أو نهاية قطعة إجرائية. لذلك، نقترح بشكل إضافي دالة خسارة مُدركة للحدود (boundary-aware loss)، تعتمد على توزيع درجات التشابه بين الإطارات المستمدة من وحدات الانتباه، بهدف تعزيز قدرة النموذج على تمييز الحدود. أظهرت التجارب الواسعة فعالية نموذجنا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp