HyperAIHyperAI
منذ 17 أيام

الاستيفاء الفعّال للتفصيل البُعدي للفيديو مع الاستدلال لكل إطار

Yifan Liu, Chunhua Shen, Changqian Yu, Jingdong Wang
الاستيفاء الفعّال للتفصيل البُعدي للفيديو مع الاستدلال لكل إطار
الملخص

بالنسبة للتحليل الدلالي للصورة، غالبًا ما تُنتج النماذج العميقة الفعالة في الوقت الفعلي، التي تم تدريبها بشكل مستقل لكل إطار، نتائج غير متسقة في تسلسل فيديو. وتعمل الطرق المتقدمة على أخذ الارتباطات داخل تسلسل الفيديو بعين الاعتبار، مثلاً من خلال نقل النتائج إلى الإطارات المجاورة باستخدام التدفق البصري، أو استخراج تمثيلات الإطار باستخدام الإطارات الأخرى، وهو ما قد يؤدي إلى نتائج غير دقيقة أو تأخير غير متوازن. في هذه الدراسة، نعالج التحليل الدلالي الفعّال للصورة في الفيديو بطريقة إطارات فردية أثناء عملية الاستدلال. وعلى عكس النماذج السابقة التي تعتمد على معالجة الإطارات بشكل فردي، نأخذ التماسك الزمني بين الإطارات بعين الاعتبار كقيود إضافية أثناء عملية التدريب، ونُدمج هذا التماسك الزمني داخل شبكة التحليل. وبالتالي، يمكننا في عملية الاستدلال معالجة كل إطار بشكل مستقل دون أي تأخير، وتحسين التماسك الزمني دون أي تكلفة حسابية إضافية أو معالجة ما بعدية. نستخدم نماذج مدمجة لتحقيق التنفيذ في الوقت الفعلي. ولتقليل الفجوة في الأداء بين النماذج المدمجة والنموذج الكبير، تم تصميم طرق جديدة لنقل المعرفة. وتفوق نتائجنا الطرق السابقة القائمة على الإطارات الأساسية، مع تحقيق توازن أفضل بين الدقة وسرعة الاستدلال على معايير شائعة مثل Cityscapes وCamVid. كما تم تحسين التماسك الزمني مقارنة بالأساسيات المماثلة التي تم تدريبها بشكل مستقل لكل إطار. يمكن الوصول إلى الكود من خلال: https://tinyurl.com/segment-video