HyperAIHyperAI

Command Palette

Search for a command to run...

مُشِّفرٌ مُتَسَلْسِلٌ عَمِيقًا مِنْ نوعِ تيْنْ تُرِيْمْ لِلْتَحْدِيدِ الْمُرَتَّبِ لِلْفِيديوِ الْمُرَجَّعِ

Guang Feng Lihe Zhang Zhiwei Hu Huchuan Lu

الملخص

تهدف التجزئة المرتبطة بالفيديو إلى تجزئة الكائن في الفيديو المُوصوف بواسطة تعبير لغوي. ولحل هذه المهمة، نُصمم أولًا مُشِّفرًا ثنائي التدفق لاستخراج السمات البصرية القائمة على الشبكات العصبية التلافيفية (CNN) والسمات اللغوية القائمة على المحولات (transformer) بشكل تسلسلي، ويتم إدراج وحدة توجيه متبادل بين البصرية واللغة (VLMG) في المُشِّفر عدة مرات لتعزيز دمج السمات متعددة الوسائط بشكل تسلسلي وتدرجي. مقارنةً بالطرق الحالية لدمج الوسائط المتعددة، يأخذ هذا المُشِّفر الثنائي التدفق بعين الاعتبار السياق اللغوي متعدد الحدود، ويعزز التداخل العميق بين الوسائط بفضل وحدة VLMG. ولتعزيز التوافيق الزمنية بين الإطارات، نقترح أيضًا وحدة تصفية ديناميكية متعددة المقياس موجهة باللغة (LMDF) لتعزيز التماسك الزمني، حيث تستخدم السمات الفضائية-الزمنية الموجهة باللغة لإنشاء مجموعة من المرشحات الديناميكية المحددة مكانيًا، بهدف تحديث سمة الإطار الحالي بطريقة أكثر مرونة وفعالية. وقد أكدت التجارب الواسعة على أربع مجموعات بيانات فعالية النموذج المقترح.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مُشِّفرٌ مُتَسَلْسِلٌ عَمِيقًا مِنْ نوعِ تيْنْ تُرِيْمْ لِلْتَحْدِيدِ الْمُرَتَّبِ لِلْفِيديوِ الْمُرَجَّعِ | مستندات | HyperAI