التمييز الدلالي للفيديو بتأخير منخفض

شهدت السنوات الأخيرة تقدماً ملحوظاً في تقسيم المعاني (semantic segmentation). ومع ذلك، لا يزال تطبيق تقنيات التقسيم على التطبيقات القائمة على الفيديو مهمة صعبة. بشكل خاص، فإن معدل التدفق العالي لمقاطع الفيديو، والتكلفة الباهظة لتشغيل الشبكات التلافيفية الكاملة (fully convolutional networks)، بالإضافة إلى متطلبات الانخفاض في زمن الاستجابة في العديد من التطبيقات الحقيقية مثل القيادة الذاتية، تشكل تحدياً كبيراً في تصميم إطار العمل للتقسيم الفيديوي. لحل هذا التحدي المركب، طورنا إطار عمل للتقسيم الدلالي للفيديو يضم مكونين جديدين: (1) وحدة نشر الميزات التي تقوم بدمج الميزات عبر الزمن بطريقة متكيفة من خلال التلافيف المتغيرة مكانياً (spatially variant convolution)، مما يقلل من تكلفة الحساب لكل إطار؛ و(2) جدول زمني متكيف يقوم بتخصيص الحسابات بشكل ديناميكي بناءً على التنبؤ بالدقة. يعمل كلا المكونين معًا لضمان انخفاض زمن الاستجابة مع الحفاظ على جودة عالية في التقسيم.على كل من Cityscapes و CamVid، حقق الإطار المقترح أداءً تنافسياً مقارنة بأحدث التقنيات، بينما قلل بشكل كبير من زمن الاستجابة، من 360 ميلي ثانية إلى 119 ميلي ثانية.