HyperAIHyperAI
منذ 8 أيام

إطار عمل فعّال لاختيار الإطارات الرئيسية لوصف الفيديو

{Sivaji Bandyopadhyay, Thoudam Doren Singh, Salam Michael Singh, Loitongbam Sanayai Meetei, Alok Singh}
إطار عمل فعّال لاختيار الإطارات الرئيسية لوصف الفيديو
الملخص

وصف الفيديو يُعد مهمة صعبة لكن جذابة، نظرًا لكونها تقع في تقاطع مجالات الرؤية الحاسوبية وتحرير اللغة الطبيعية. وقد أظهرت النماذج القائمة على الانتباه أفضل الأداء في هذا المجال. ومع ذلك، فإن جميع هذه النماذج تتبع إجراءات مشابهة، مثل تقسيم الفيديو إلى أجزاء من الإطارات أو أخذ عينات من الإطارات بفترات زمنية متساوية لغرض التشفير البصري. ويتسبب عملية التقسيم إلى أجزاء أو أخذ العينات المتساوية في تشفير معلومات بصرية زائدة، مما يستدعي تكلفة حسابية إضافية، وذلك لأن الفيديو يتكون من تسلسل من الإطارات المتشابهة، ويتأثر بضوضاء لا مفر منها مثل التغير غير المتساوي في الإضاءة، والاختناقات، والتأثيرات الحركية. في هذا البحث، تم اقتراح نهج جديد لاختيار الإطارات الرئيسية القائمة على الحدود، يتيح للنظام اختيار مجموعة مدمجة من الإطارات الرئيسية لتمثيل المعلومات البصرية وإنتاج وصف للفيديو دون تدهور كبير في الأداء. ويستخدم النهج المقترح 3 إلى 4 إطارات فقط لكل فيديو، ويحقق أداءً تنافسيًا على مجموعتي بيانات معياريتين، وهما MSVD وMSR-VTT (باللغة الإنجليزية والهندية معًا).

إطار عمل فعّال لاختيار الإطارات الرئيسية لوصف الفيديو | أحدث الأوراق البحثية | HyperAI