HyperAIHyperAI

Command Palette

Search for a command to run...

استخدام أفضل للدلالات السمعية والبصرية: التسمية الكثيفة للفيديو باستخدام محول ثنائي الوضع

Vladimir Iashin; Esa Rahtu

الملخص

الهدف من التسمية الكثيفة للفيديو هو تحديد ووصف الأحداث المهمة في مقاطع الفيديو غير المقصوصة. تركز الأساليب الحالية بشكل أساسي على التعامل مع هذه المهمة من خلال استغلال الخصائص البصرية فقط، بينما تتجاهل المسار الصوتي تمامًا. استخدمت بعض الأعمال السابقة فقط كلا النمطين، لكنها أظهرت نتائج ضعيفة أو أثبتت الأهمية على مجموعة بيانات ذات مجال محدد. في هذا البحث، نقدم محول ثنائي النمط (Bi-modal Transformer) الذي يعمم هندسة المحول لمدخل ثنائي النمط. نوضح فعالية النموذج المقترح باستخدام النمطين الصوتي والبصري في مهمة التسمية الكثيفة للفيديو، ومع ذلك فإن الوحدة قادرة على معالجة أي نمطيْن في مهمة تحويل المتتابعة إلى متتابعة أخرى (sequence-to-sequence). كما نوضح أن المحول الثنائي النمط المُدرب مسبقًا يمكن استخدامه كمستخرج للخصائص لموديل بسيط لتوليد الاقتراحات. يتم عرض الأداء على مجموعة بيانات ActivityNet Captions الصعبة حيث يحقق نموذجنا أداءً متميزًا. الرمز البرمجي متاح على الرابط التالي: v-iashin.github.io/bmt


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp