HyperAIHyperAI

Command Palette

Search for a command to run...

إطار عمل فعّال لاختيار الإطارات الرئيسية لوصف الفيديو

Sivaji Bandyopadhyay Thoudam Doren Singh Salam Michael Singh Loitongbam Sanayai Meetei Alok Singh

الملخص

وصف الفيديو يُعد مهمة صعبة لكن جذابة، نظرًا لكونها تقع في تقاطع مجالات الرؤية الحاسوبية وتحرير اللغة الطبيعية. وقد أظهرت النماذج القائمة على الانتباه أفضل الأداء في هذا المجال. ومع ذلك، فإن جميع هذه النماذج تتبع إجراءات مشابهة، مثل تقسيم الفيديو إلى أجزاء من الإطارات أو أخذ عينات من الإطارات بفترات زمنية متساوية لغرض التشفير البصري. ويتسبب عملية التقسيم إلى أجزاء أو أخذ العينات المتساوية في تشفير معلومات بصرية زائدة، مما يستدعي تكلفة حسابية إضافية، وذلك لأن الفيديو يتكون من تسلسل من الإطارات المتشابهة، ويتأثر بضوضاء لا مفر منها مثل التغير غير المتساوي في الإضاءة، والاختناقات، والتأثيرات الحركية. في هذا البحث، تم اقتراح نهج جديد لاختيار الإطارات الرئيسية القائمة على الحدود، يتيح للنظام اختيار مجموعة مدمجة من الإطارات الرئيسية لتمثيل المعلومات البصرية وإنتاج وصف للفيديو دون تدهور كبير في الأداء. ويستخدم النهج المقترح 3 إلى 4 إطارات فقط لكل فيديو، ويحقق أداءً تنافسيًا على مجموعتي بيانات معياريتين، وهما MSVD وMSR-VTT (باللغة الإنجليزية والهندية معًا).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إطار عمل فعّال لاختيار الإطارات الرئيسية لوصف الفيديو | مستندات | HyperAI