HyperAIHyperAI
منذ 3 أشهر

استخراج العلاقات بين اقتراحات الفيديو للكشف عن الكائنات في الفيديو

{Xiaojun Chang, Yu Qiao, Yali Wang, Mingfei Han}
استخراج العلاقات بين اقتراحات الفيديو للكشف عن الكائنات في الفيديو
الملخص

أظهرت دراسات حديثة أن جمع المعلومات السياقية من الاقتراحات في إطارات مختلفة يمكن أن يعزز بشكل واضح أداء كشف الكائنات في الفيديو. ومع ذلك، فإن هذه الطرق تستغل بشكل رئيسي العلاقات الداخلية بين الاقتراحات داخل فيديو واحد، بينما تتجاهل العلاقات الداخلية بين الاقتراحات عبر فيديوهات مختلفة، والتي يمكن أن توفر مفاتيح تمييزية مهمة لتمييز الكائنات المبهمة. وللتغلب على هذه القيود، نقترح وحدة جديدة تُعرف بـ "العلاقة بين الاقتراحات عبر الفيديوهات" (Inter-Video Proposal Relation module). تعتمد هذه الوحدة على خطة مختصرة لاختيار أزواج ثلاثية متعددة المستويات، مما يمكّنها من تعلّم تمثيلات فعّالة للكائنات من خلال نمذجة العلاقات بين الاقتراحات الصعبة عبر الفيديوهات المختلفة. علاوةً على ذلك، قمنا بتصميم شبكة علاقات فيديو هرمية (HVR-Net) من خلال دمج العلاقات بين الاقتراحات داخل الفيديو وعبر الفيديوهات بطريقة هرمية. ويتيح هذا التصميم استغلال التواجد السياقي الداخلي والخارجي للفيديو بشكل تدريجي، مما يعزز أداء كشف الكائنات في الفيديو. وقد تم اختبار طريقتنا على معيار كشف الكائنات في الفيديو الكبير النطاق، أي ImageNet VID، حيث حققت HVR-Net نتائج من الطراز الأول (SOTA). سيتم إصدار الشفرات والنموذج لاحقًا.