HyperAIHyperAI
منذ 2 أشهر

تتبع أي شيء باستخدام تقسيم الفيديو المنفصل

Ho Kei Cheng; Seoung Wug Oh; Brian Price; Alexander Schwing; Joon-Young Lee
تتبع أي شيء باستخدام تقسيم الفيديو المنفصل
الملخص

بيانات التدريب لتقسيم الفيديو باهظة الثمن للتدوين. هذا يعرقل توسيع خوارزميات النهاية إلى النهاية إلى مهام تقسيم فيديو جديدة، خاصة في بيئات المفردات الكبيرة. لـ "تتبع أي شيء" دون تدريب على بيانات الفيديو لكل مهمة فردية، نطور نهجًا منفصلًا لتقسيم الفيديو (DEVA)، يتكون من تقسيم صورة على مستوى المهمة وانتشار زمني ثنائي الاتجاه مستقل عن الصنف/المهمة. بفضل هذا التصميم، نحتاج فقط إلى نموذج على مستوى الصورة للمهمة المستهدفة (والذي يكون أرخص للتدريب) ونموذج انتشار زمني شامل يتم تدريبه مرة واحدة ويعمم عبر المهام. لتحقيق دمج فعال لهذه الوحدتين، نستخدم الانتشار الثنائي الاتجاه لدمج فرضيات التقسيم من الإطارات المختلفة لإنتاج تقسيم متماسك. نظهر أن هذه الصيغة المنفصلة تقارن بشكل ملائم مع النهج الشامل في عدة مهام قليلة البيانات مثل تقسيم الفيديو البانورامي ذو المفردات الكبيرة، وتقسيم الفيديو في العالم المفتوح، وتقسيم الفيديو بالإشارة، والتقسيم غير المنظور للكائنات في الفيديو. الرمز متاح على: https://hkchengrex.github.io/Tracking-Anything-with-DEVA

تتبع أي شيء باستخدام تقسيم الفيديو المنفصل | أحدث الأوراق البحثية | HyperAI