إطار عمل فعّال لاختيار الإطارات الرئيسية لوصف الفيديو

وصف الفيديو يُعد مهمة صعبة لكن جذابة، نظرًا لكونها تقع في تقاطع مجالات الرؤية الحاسوبية وتحرير اللغة الطبيعية. وقد أظهرت النماذج القائمة على الانتباه أفضل الأداء في هذا المجال. ومع ذلك، فإن جميع هذه النماذج تتبع إجراءات مشابهة، مثل تقسيم الفيديو إلى أجزاء من الإطارات أو أخذ عينات من الإطارات بفترات زمنية متساوية لغرض التشفير البصري. ويتسبب عملية التقسيم إلى أجزاء أو أخذ العينات المتساوية في تشفير معلومات بصرية زائدة، مما يستدعي تكلفة حسابية إضافية، وذلك لأن الفيديو يتكون من تسلسل من الإطارات المتشابهة، ويتأثر بضوضاء لا مفر منها مثل التغير غير المتساوي في الإضاءة، والاختناقات، والتأثيرات الحركية. في هذا البحث، تم اقتراح نهج جديد لاختيار الإطارات الرئيسية القائمة على الحدود، يتيح للنظام اختيار مجموعة مدمجة من الإطارات الرئيسية لتمثيل المعلومات البصرية وإنتاج وصف للفيديو دون تدهور كبير في الأداء. ويستخدم النهج المقترح 3 إلى 4 إطارات فقط لكل فيديو، ويحقق أداءً تنافسيًا على مجموعتي بيانات معياريتين، وهما MSVD وMSR-VTT (باللغة الإنجليزية والهندية معًا).