HyperAIHyperAI
منذ 2 أشهر

التمييز الدلالي للفيديو من خلال انتشار التدفق المتكرر المُحكم

David Nilsson; Cristian Sminchisescu
التمييز الدلالي للفيديو من خلال انتشار التدفق المتكرر المُحكم
الملخص

التمييز الدلالي للفيديو يشكل تحديًا بسبب الكمية الهائلة من البيانات التي يجب معالجتها وتسميتها لبناء نماذج دقيقة. في هذا البحث، نقدم منهجية قابلة للتدريب من النهاية إلى النهاية بعمق تتيح استخدام المعلومات الموجودة في البيانات غير المسمى لتحسين التقديرات الدلالية. يجمع نموذجنا بين هندسة تلافيفية وطبقة متكررة متحول زماني-مكاني قادرة على نشر معلومات التسمية زمنيًا باستخدام الجريان البصري، والتي يتم التحكم فيها بشكل تكيفي بناءً على عدم اليقين المحلي المقدر لها. يمكن تدريب الوحدات الثلاث: الجريان البصري، والتمييز، ونشر الزمن المتغير المتحكم به بشكل مشترك ومن النهاية إلى النهاية. يمكن دمج مكون نشر الجريان الزمني المتغير المتحكم به في أي هندسة تمييز دلالي ثابتة وتحويلها إلى معالجة الفيديو تحت إشراف ضعيف. تشير التجارب الواسعة التي أجريت على مجموعات البيانات الصعبة CityScapes وCamVid، وباستخدام العديد من الهندسات العميقة، إلى أن النموذج الناتج يمكنه الاستفادة من الإطارات الزمنية غير المسمى بالإضافة إلى الإطار المسمى لتحسين دقة تمييز الفيديو وثبات تسميته الزمنية، دون أي تكلفة إضافية للتسميات ومع حسابات إضافية قليلة.请注意,某些专有名词如“CityScapes”和“CamVid”在阿拉伯语中通常保留其原始形式,因为它们是特定的数据集名称。同样,“optical flow”被翻译为“الجريان البصري”,这是该术语在计算机视觉领域的通用阿拉伯语译法。