HyperAIHyperAI
منذ 17 أيام

في دفاع عن النماذج الزمنية للفصل البصري للInstances

Junfeng Wu, Qihao Liu, Yi Jiang, Song Bai, Alan Yuille, Xiang Bai
في دفاع عن النماذج الزمنية للفصل البصري للInstances
الملخص

في السنوات الأخيرة، تقدّم تحليل الفيديو حسب المثيل (VIS) بشكل كبير بفضل النماذج غير المباشرة (offline)، في حين جذبت النماذج المباشرة (online) اهتمامًا أقل تدريجيًا، ربما بسبب أدائها الأضعف. ومع ذلك، تمتلك النماذج المباشرة ميزة جوهرية في التعامل مع تسلسلات الفيديو الطويلة والفيديوهات المستمرة، بينما تفشل النماذج غير المباشرة بسبب قيود الموارد الحاسوبية. لذلك، سيكون من المثالي جدًا إذا تمكّنت النماذج المباشرة من تحقيق أداءً مماثلًا أو حتى أفضل من النماذج غير المباشرة. من خلال تحليل النماذج الحالية من النوعين، نُظهر أن السبب الرئيسي في الفجوة الأداء يكمن في عملية الربط الخاطئة بين الإطارات الناتجة عن التشابه في المظهر بين المثيلات المختلفة في فضاء الميزات. وبناءً على هذا الملاحظة، نقترح إطارًا مباشرًا مبنيًا على التعلّم التمييزي (contrastive learning)، قادر على تعلّم تمثيلات مثيل أكثر تمييزًا لغرض الربط، واستغلال كامل للمعلومات التاريخية لتعزيز الاستقرار. وعلى الرغم من بساطة المنهج، يتفوّق أداء طريقةنا على جميع النماذج المباشرة وغير المباشرة في ثلاث مجموعات بيانات معيارية. وبشكل خاص، حققنا 49.5 AP على YouTube-VIS 2019، بتحسّن ملحوظ قدره 13.2 AP و2.1 AP مقارنة بأفضل النماذج المباشرة وغير المباشرة السابقة على التوالي. بالإضافة إلى ذلك، تحققنا بـ 30.2 AP على OVIS، وهي مجموعة بيانات أكثر تحدّيًا تتميز بوجود تكدس كبير واحتقانات، متفوّقين على الأداء السابق بفارق 14.8 AP. وقد حصلت الطريقة المقترحة على المركز الأول في مسار تحليل المثيلات في الفيديو ضمن مسابقة التصنيف الآلي للكائنات في الفيديو على نطاق واسع (CVPR2022)، الدورة الرابعة. نأمل أن تُسهم بساطة وفعالية طريقةنا، إلى جانب رؤيتنا حول النماذج الحالية، في توجيه أبحاث تطوير نماذج VIS المستقبلية.