HyperAIHyperAI

Command Palette

Search for a command to run...

الفصل في الأفعال مع الوعي بالتبديل من خلال محاذاة الإطار إلى الجزء دون إشراف

Quoc-Huy Tran* Ahmed Mehmood* Muhammad Ahmed Muhammad Naufil Anas Zafar Andrey Konin M. Zeeshan Zia

الملخص

يقدم هذا البحث إطارًا غير مشرف مستندًا إلى التحويلات (transformer) لتقسيم الأنشطة الزمنية، يستفيد ليس فقط من مؤشرات المستوى الإطاري (frame-level) ولكن أيضًا من مؤشرات المستوى الفرعي (segment-level). وهذا يختلف عن الطرق السابقة التي تعتمد غالبًا على المعلومات الإطارية فقط. تبدأ نهجنا بوحدة تنبؤ على مستوى الإطار تقوم بتقدير فئات الأفعال الإطارية عبر مُشفِّر تحويلة (transformer encoder). يتم تدريب وحدة التنبؤ على مستوى الإطار بطريقة غير مشرفة باستخدام النقل الأمثل الزمني (temporal optimal transport). للحصول على استفادة من المعلومات الفرعية، نستخدم وحدة تنبؤ على مستوى الفرع ووحدة تناسق بين الإطارات والفروع. تتضمن الوحدة الأولى مُفكِّك تحويلة (transformer decoder) لتقدير سجلات الفيديو، بينما تقوم الوحدة الثانية بمطابقة الخصائص الإطارية مع الخصائص الفرعية، مما ينتج عنه نتائج تقسيم واعية بالتبديل (permutation-aware). بالإضافة إلى ذلك، مستوحىً من النقل الأمثل الزمني، قمنا بتقديم علامات زائفة بسيطة ولكنها فعالة للتدريب غير المشرف للوحدات المذكورة أعلاه. أظهرت تجاربنا على أربع قواعد بيانات عامة، وهي 50 سلطة، تعليمات YouTube، إفطار، وتجميع سطح المكتب أن نهجنا يحقق أداءً مكافئًا أو أفضل من الطرق السابقة في تقسيم الأنشطة الزمنية بشكل غير مشرف.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp