HyperAIHyperAI
منذ 15 أيام

التحليل القابل للتوسع لكائنات الفيديو باستخدام آلية التعرف

Zongxin Yang, Jiaxu Miao, Yunchao Wei, Wenguan Wang, Xiaohan Wang, Yi Yang
التحليل القابل للتوسع لكائنات الفيديو باستخدام آلية التعرف
الملخص

تتعمق هذه الورقة في التحديات المرتبطة بتحقيق نمذجة متعددة الكائنات قابلة للتوسع وفعالة في تقسيم كائنات الفيديو شبه المُعلَّم (VOS). كانت الطرق السابقة لـ VOS تقوم بفك تشفير الميزات باستخدام كائن إيجابي واحد فقط، مما يحد من قدرة التعلم على تمثيل الكائنات المتعددة، حيث يجب تطابق كل هدف وتقسيمه بشكل منفصل في سياقات متعددة الكائنات. علاوةً على ذلك، كانت الأساليب المبكرة تُراعي أهداف تطبيقية محددة، وتفتقر إلى المرونة اللازمة لتلبية متطلبات مختلفة من حيث السرعة والدقة. لمعالجة هذه المشكلات، نقدم طريقتين مبتكرتين: "ربط الكائنات باستخدام المحولات" (AOT) و"ربط الكائنات باستخدام محولات قابلة للتوسع" (AOST). وفي سعينا لتحقيق نمذجة فعالة لكائنات متعددة، يُقدِّم AOT آلية التعرف (ID) لتخصيص هوية فريدة لكل كائن. يُمكّن هذا النهج الشبكة من نمذجة العلاقات بين جميع الكائنات في آنٍ واحد، وبالتالي تسهيل تتبع وتقسيم الكائنات في عملية واحدة للشبكة. ولحل مشكلة النشر غير المرن، يدمج AOST بشكل إضافي محولات طويلة الأمد قابلة للتوسع، والتي تتضمن مراقبة قابلة للتوسع وانتباه مبني على الهوية (ID) على مستوى الطبقات. وهذا يُمكّن من التوسع المعماري عبر الإنترنت في VOS لأول مرة، ويتجاوز القيود المفروضة على تمثيل متجهات الهوية (ID embeddings). وبما أن هناك نقصًا في معايير معيارية لـ VOS تتضمن تسميات كثيفة لكائنات متعددة، نقترح معيارًا جديدًا يُسمى "تقسيم كائنات الفيديو في البيئة البرية" (VOSW) لاختبار كفاءة أساليبنا. قمنا بتقييم عدة نسخ متطورة من AOT وAOST من خلال تجارب واسعة النطاق على معيار VOSW وخمسة معايير شائعة لـ VOS، بما في ذلك YouTube-VOS 2018 & 2019 Val، وDAVIS-2017 Val & Test، وDAVIS-2016. أظهرت أساليبنا تفوقًا ملحوظًا على أقوى المنافسين الحاليين، وتميّزت بكفاءة عالية وقابلية للتوسع بشكل متسق عبر جميع المعايير الستة. صفحة المشروع: https://github.com/yoxu515/aot-benchmark.

التحليل القابل للتوسع لكائنات الفيديو باستخدام آلية التعرف | أحدث الأوراق البحثية | HyperAI