HyperAIHyperAI

Command Palette

Search for a command to run...

الوصف المتنوع للفيديوهات باستخدام الانتباه الزمني المكاني التكيفي

Zohreh Ghaderi Leonard Salewski Hendrik P. A. Lensch

الملخص

لإنشاء عناوين مناسبة للفيديوهات، يجب على عملية الاستنتاج التعرف على المفاهيم ذات الصلة والانتباه إلى العلاقات المكانية بينها، فضلاً عن التطور الزمني داخل المشهد. يدمج إطارنا المتكامل لتحليل الفيديو وتكوين العناوين معماريتين مبنيتين على المحولات (Transformers)، ألا وهما: محول معدّل لتحليل مكاني-زمني موحد للفيديو، بالإضافة إلى مُفكّك يستند إلى الانتباه الذاتي لتحسين توليد النصوص. علاوةً على ذلك، نقدّم خطة اختيار إطارات تكيفية لتقليل عدد الإطارات الداخلة المطلوبة مع الحفاظ على المحتوى المهم أثناء تدريب كلا المحولين. كما نقدّر المفاهيم الدلالية ذات الصلة بتكوين عناوين الفيديو من خلال تجميع جميع العناوين الصحيحة (ground truth) لكل عينة. تُظهر نتائج منهجنا تفوقًا على أفضل النتائج المُسجّلة في مجموعات بيانات MSVD، وكذلك في مجموعات البيانات الواسعة النطاق MSR-VTT وVATEX، وذلك عند تقييمها باستخدام عدة مقاييس لتجسيد اللغة الطبيعية (NLG). وتُبرز التقييمات الإضافية المتعلقة بدرجات التنوّع التعبيرية والتنوع في هيكل العناوين المولّدة من خلال منهجنا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp