HyperAIHyperAI
منذ 17 أيام

تعلم السياقات الزمنية المحلية والعالمية للفصل الدلالي للفيديو

Guolei Sun, Yun Liu, Henghui Ding, Min Wu, Luc Van Gool
تعلم السياقات الزمنية المحلية والعالمية للفصل الدلالي للفيديو
الملخص

تلعب المعلومات السياقية دورًا محوريًا في التجزئة الدلالية للفيديو (VSS). يلخص هذا البحث السياقات المتعلقة بـ VSS من خلال نموذجين: السياقات الزمنية المحلية (LTC)، التي تُعرّف السياقات المستمدة من الإطارات المجاورة، والسياقات الزمنية العالمية (GTC)، التي تمثل السياقات المستمدة من كامل الفيديو. أما بالنسبة للسياقات الزمنية المحلية، فإنها تشمل السياقات الثابتة والحركة، والتي تتوافق مع المحتوى الثابت والحركة في الإطارات المجاورة، على التوالي. وقد تم دراسة السياقات الثابتة والحركة سابقًا على حدة. ومع ذلك، لم تُجرَ أية أبحاث حول تعلُّم السياقات الثابتة والحركة معًا (التي تكمل بعضها البعض بشكل كبير). لذلك، نقترح تقنية استخراج الميزات من الخشنة إلى الدقيقة (CFFM) لتعلم تمثيل موحد للسياقات الزمنية المحلية. تتكوّن CFFM من جزأين: تجميع الميزات من الخشنة إلى الدقيقة (CFFA)، واستخراج الميزات عبر الإطارات (CFM). حيث يقوم CFFA باستخلاص السياقات الثابتة والحركة، بينما يقوم CFM باستخراج المعلومات المفيدة من الإطارات القريبة لتعزيز الميزات المستهدفة. ولاستغلال سياقات زمنية إضافية، نقترح تطويرًا مُحسّنًا يُسمّى CFFM++، والذي يُدرّس السياقات الزمنية العالمية (GTC) إضافةً إلى السياقات الزمنية المحلية، وذلك من خلال أخذ عينات متساوية من عدد معين من الإطارات في الفيديو واستخراج النماذج السياقية العالمية باستخدام خوارزمية k-means. ثم يتم استخراج المعلومات داخل هذه النماذج باستخدام CFM لتحسين الميزات المستهدفة. أظهرت النتائج التجريبية على معايير شهيرة أداءً متميزًا لـ CFFM وCFFM++ مقارنةً بأفضل الطرق الحالية. يمكن الوصول إلى الكود الخاص بنا عبر الرابط: https://github.com/GuoleiSun/VSS-CFFM

تعلم السياقات الزمنية المحلية والعالمية للفصل الدلالي للفيديو | أحدث الأوراق البحثية | HyperAI