HyperAIHyperAI

Command Palette

Search for a command to run...

اختبار الزمن: غرس نموذج الفيديو واللغة بشعور بالزمن

Piyush Bagad Makarand Tapaswi Cees G. M. Snoek

الملخص

يمثل نمذجة وفهم الزمن تحديًا مستمرًا في النماذج الحديثة لفهم الفيديو. ومع ظهور اللغة كمحرك رئيسي نحو التعميم القوي، أصبح من الضروري أن تمتلك النماذج الأساسية للفيديو واللغة إدراكًا للزمن. في هذا البحث، نتناول جانبًا محددًا من فهم الزمن: اتساق ترتيب الزمن كما يُستمد من العلاقات "قبل/بعد". ونُظهر أن سبع نماذج موجودة للفيديو واللغة تواجه صعوبة في فهم حتى هذه العلاقات الزمنية البسيطة. ثم نتساءل عما إذا كان من الممكن تزويد هذه النماذج الأساسية بإدراك زمني دون الحاجة إلى إعادة تدريبها من الصفر. ولتحقيق ذلك، نقترح وصفة تكييف زمني مبنية على نموذج واحد من هذه النماذج، وهو VideoCLIP، وذلك من خلال عملية ما بعد التدريب على كمية صغيرة من البيانات الفيديو-النصية. قمنا بتقييم معدوم النموذج (zero-shot) للنماذج المُعدَّلة على ستة مجموعات بيانات لثلاثة مهام تطبيقية تختلف في درجة الحاجة إلى إدراك الزمن. ولاحظنا تحسنًا مُشجِّعًا في الأداء، خاصةً في المهام التي تتطلب مستوى أعلى من الإدراك الزمني. يُعد عملنا الخطوة الأولى نحو استكشاف وإدخال إدراك للزمن في النماذج الحالية للفيديو واللغة، دون الحاجة إلى تدريب مكثف من حيث البيانات والقدرة الحسابية من البداية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp