HyperAIHyperAI
منذ 11 أيام

مُشِّفرٌ مُتَسَلْسِلٌ عَمِيقًا مِنْ نوعِ تيْنْ تُرِيْمْ لِلْتَحْدِيدِ الْمُرَتَّبِ لِلْفِيديوِ الْمُرَجَّعِ

Guang Feng, Lihe Zhang, Zhiwei Hu, Huchuan Lu
مُشِّفرٌ مُتَسَلْسِلٌ عَمِيقًا مِنْ نوعِ تيْنْ تُرِيْمْ لِلْتَحْدِيدِ الْمُرَتَّبِ لِلْفِيديوِ الْمُرَجَّعِ
الملخص

تهدف التجزئة المرتبطة بالفيديو إلى تجزئة الكائن في الفيديو المُوصوف بواسطة تعبير لغوي. ولحل هذه المهمة، نُصمم أولًا مُشِّفرًا ثنائي التدفق لاستخراج السمات البصرية القائمة على الشبكات العصبية التلافيفية (CNN) والسمات اللغوية القائمة على المحولات (transformer) بشكل تسلسلي، ويتم إدراج وحدة توجيه متبادل بين البصرية واللغة (VLMG) في المُشِّفر عدة مرات لتعزيز دمج السمات متعددة الوسائط بشكل تسلسلي وتدرجي. مقارنةً بالطرق الحالية لدمج الوسائط المتعددة، يأخذ هذا المُشِّفر الثنائي التدفق بعين الاعتبار السياق اللغوي متعدد الحدود، ويعزز التداخل العميق بين الوسائط بفضل وحدة VLMG. ولتعزيز التوافيق الزمنية بين الإطارات، نقترح أيضًا وحدة تصفية ديناميكية متعددة المقياس موجهة باللغة (LMDF) لتعزيز التماسك الزمني، حيث تستخدم السمات الفضائية-الزمنية الموجهة باللغة لإنشاء مجموعة من المرشحات الديناميكية المحددة مكانيًا، بهدف تحديث سمة الإطار الحالي بطريقة أكثر مرونة وفعالية. وقد أكدت التجارب الواسعة على أربع مجموعات بيانات فعالية النموذج المقترح.

مُشِّفرٌ مُتَسَلْسِلٌ عَمِيقًا مِنْ نوعِ تيْنْ تُرِيْمْ لِلْتَحْدِيدِ الْمُرَتَّبِ لِلْفِيديوِ الْمُرَجَّعِ | أحدث الأوراق البحثية | HyperAI