التحليل البصري للأجسام في الفيديو بدون تدريب مسبق من خلال الشبكات العصبية الرسومية المُنتبهة

تقترح هذه الدراسة شبكة عصبية رسمية مُنتبهة جديدة (AGNN) للفصل الكائنات في الفيديو بدون تدريب مسبق (ZVOS). تعيد AGNN صياغة هذه المهمة إلى عملية تكامل تدريجي للمعلومات عبر الرسوم البيانية الخاصة بالفيديوهات. بشكل خاص، تبني AGNN رسمًا مترابطًا بالكامل لتمثيل الإطارات كعقد، والعلاقات بين أي زوج من الإطارات كحواف. تُصف العلاقات الزوجية الكامنة باستخدام آلية انتباه قابلة للتمييز. من خلال عملية تمرير الرسائل المعتمدة على المعاملات، تتمكن AGNN من التقاط واستخراج علاقات أكثر غنىً وأعلى درجة بين إطارات الفيديو بكفاءة، مما يمكّن من فهم أعمق لمحتوى الفيديو وتقدير أدق للخلفية الأمامية. أظهرت النتائج التجريبية على ثلاث مجموعات بيانات للفصل الكائنات في الفيديو أن AGNN تحقق حالة جديدة من الأداء القياسي في كل حالة. ولإثبات مرونة إطار العمل بشكل أكبر، تم توسيع AGNN لتطبيق إضافي: فصل مشترك للكائنات في الصور (IOCS). أجرينا تجارب على مجموعتي بيانات شهيرتين لـ IOCS، ولاحظنا مرة أخرى تفوق نموذجنا AGNN. تؤكد التجارب الواسعة أن AGNN قادرة على تعلّم العلاقات الدلالية/الشكلية الكامنة بين إطارات الفيديو أو الصور المرتبطة بها، واكتشاف الكائنات المشتركة.