استخراج العلاقات بين اقتراحات الفيديو للكشف عن الكائنات في الفيديو
استخراج العلاقات بين اقتراحات الفيديو للكشف عن الكائنات في الفيديو
{Xiaojun Chang Yu Qiao Yali Wang Mingfei Han}

الملخص
أظهرت دراسات حديثة أن جمع المعلومات السياقية من الاقتراحات في إطارات مختلفة يمكن أن يعزز بشكل واضح أداء كشف الكائنات في الفيديو. ومع ذلك، فإن هذه الطرق تستغل بشكل رئيسي العلاقات الداخلية بين الاقتراحات داخل فيديو واحد، بينما تتجاهل العلاقات الداخلية بين الاقتراحات عبر فيديوهات مختلفة، والتي يمكن أن توفر مفاتيح تمييزية مهمة لتمييز الكائنات المبهمة. وللتغلب على هذه القيود، نقترح وحدة جديدة تُعرف بـ "العلاقة بين الاقتراحات عبر الفيديوهات" (Inter-Video Proposal Relation module). تعتمد هذه الوحدة على خطة مختصرة لاختيار أزواج ثلاثية متعددة المستويات، مما يمكّنها من تعلّم تمثيلات فعّالة للكائنات من خلال نمذجة العلاقات بين الاقتراحات الصعبة عبر الفيديوهات المختلفة. علاوةً على ذلك، قمنا بتصميم شبكة علاقات فيديو هرمية (HVR-Net) من خلال دمج العلاقات بين الاقتراحات داخل الفيديو وعبر الفيديوهات بطريقة هرمية. ويتيح هذا التصميم استغلال التواجد السياقي الداخلي والخارجي للفيديو بشكل تدريجي، مما يعزز أداء كشف الكائنات في الفيديو. وقد تم اختبار طريقتنا على معيار كشف الكائنات في الفيديو الكبير النطاق، أي ImageNet VID، حيث حققت HVR-Net نتائج من الطراز الأول (SOTA). سيتم إصدار الشفرات والنموذج لاحقًا.
مستودعات الكود
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| video-object-detection-on-imagenet-vid | HVRNet (ResNeXt101-32x4d) | MAP : 85.5 |
| video-object-detection-on-imagenet-vid | HVRNet (ResNest101) | MAP : 83.8 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.