HyperAIHyperAI
منذ 17 أيام

التفكيك البصري للInstances النهائية باستخدام Transformers

Yuqing Wang, Zhaoliang Xu, Xinlong Wang, Chunhua Shen, Baoshan Cheng, Hao Shen, Huaxia Xia
التفكيك البصري للInstances النهائية باستخدام Transformers
الملخص

تمثّل مهمة التجزئة البصرية للInstances في الفيديو (VIS) المهمة التي تتطلب في آن واحد تصنيف وتمييز وتعقب كائنات محددة في مقطع فيديو. تُعدّ الطرق الحديثة غالبًا ما تطور خطوط أنابيب معقدة لمعالجة هذه المهمة. وفي هذا العمل، نقترح إطارًا جديدًا لتمييز الفيديو للInstances مبنيًا على نماذج Transformers، يُسمّى VisTR، والذي ينظر إلى مهمة VIS كمشكلة تشفير متوازية مباشرة من الطرفين (end-to-end) لسلسلة التنبؤ. عند إدخال مقطع فيديو يتكون من عدة إطارات صور، يُنتج VisTR تسلسل الأقنعة الخاصة بكل كائن في الفيديو بشكل مباشر ومتسلسل. وتمثّل النواة الأساسية لهذا الإطار استراتيجية جديدة وفعّالة لتوافق تسلسلات الكائنات وتمييزها، حيث تُراقب وتحدد الكائنات على مستوى التسلسل ككل. يُقدّم VisTR رؤية موحدة لتمييز الكائنات وتعقبها من منظور تعلم التشابه، مما يبسط بشكل كبير الخطوط الأنابيب الكلية، ويختلف بشكل كبير عن الطرق الحالية. وبلا أي إضافات معقدة، يحقق VisTR أسرع سرعة بين جميع النماذج الحالية لـ VIS، ويُحقّق أفضل أداء بين الطرق التي تستخدم نموذجًا واحدًا على مجموعة بيانات YouTube-VIS. ولأول مرة، نُظهر إطارًا أبسط وأسرع لتمييز الكائنات في الفيديو مبنيًا على Transformers، ويحقق دقة تنافسية. ونأمل أن يُحفّز VisTR الأبحاث المستقبلية في مجالات أعمق من فهم الفيديو.