HyperAIHyperAI
منذ 11 أيام

التحليل البصري للأجسام في الفيديو بدون تدريب مسبق من خلال الشبكات العصبية الرسومية المُنتبهة

Wenguan Wang, Xiankai Lu, Jianbing Shen, David Crandall, Ling Shao
التحليل البصري للأجسام في الفيديو بدون تدريب مسبق من خلال الشبكات العصبية الرسومية المُنتبهة
الملخص

تقترح هذه الدراسة شبكة عصبية رسمية مُنتبهة جديدة (AGNN) للفصل الكائنات في الفيديو بدون تدريب مسبق (ZVOS). تعيد AGNN صياغة هذه المهمة إلى عملية تكامل تدريجي للمعلومات عبر الرسوم البيانية الخاصة بالفيديوهات. بشكل خاص، تبني AGNN رسمًا مترابطًا بالكامل لتمثيل الإطارات كعقد، والعلاقات بين أي زوج من الإطارات كحواف. تُصف العلاقات الزوجية الكامنة باستخدام آلية انتباه قابلة للتمييز. من خلال عملية تمرير الرسائل المعتمدة على المعاملات، تتمكن AGNN من التقاط واستخراج علاقات أكثر غنىً وأعلى درجة بين إطارات الفيديو بكفاءة، مما يمكّن من فهم أعمق لمحتوى الفيديو وتقدير أدق للخلفية الأمامية. أظهرت النتائج التجريبية على ثلاث مجموعات بيانات للفصل الكائنات في الفيديو أن AGNN تحقق حالة جديدة من الأداء القياسي في كل حالة. ولإثبات مرونة إطار العمل بشكل أكبر، تم توسيع AGNN لتطبيق إضافي: فصل مشترك للكائنات في الصور (IOCS). أجرينا تجارب على مجموعتي بيانات شهيرتين لـ IOCS، ولاحظنا مرة أخرى تفوق نموذجنا AGNN. تؤكد التجارب الواسعة أن AGNN قادرة على تعلّم العلاقات الدلالية/الشكلية الكامنة بين إطارات الفيديو أو الصور المرتبطة بها، واكتشاف الكائنات المشتركة.

التحليل البصري للأجسام في الفيديو بدون تدريب مسبق من خلال الشبكات العصبية الرسومية المُنتبهة | أحدث الأوراق البحثية | HyperAI