{Bo Liu Qingshan Liu Dong Liu Zicheng Zhao Kaihua Zhang}

الملخص
تُدمج الطرق الشائعة للفصل الكائنات في الفيديو غير المُراقبة الإطار الملون (RGB) والتدفق البصري من خلال شبكة ذات تدفقين. ومع ذلك، فإن هذه الطرق لا تستطيع التعامل مع الضوضاء المُربكة في كل من وسائط الإدخال، والتي قد تؤدي إلى تدهور كبير في أداء النموذج. نقترح إقامة علاقة تطابق بين وسائط الإدخال مع تقليل تأثير الإشارات المشتتة من خلال التماثل الهيكلي الأمثل. عند معالجة إطار فيديو معين، نستخرج السمات المحلية الكثيفة من الصورة الملونة والتدفق البصري، ونعاملها كتمثيلين معقدين هيكليًا. ثم نستخدم مسافة واسيرشتين لحساب التدفقات المثلى عالميًا لنقل السمات من وسيلة إدخال إلى أخرى، حيث يقاس حجم كل تدفق بدرجة التوافق بين سمتين محليتين. ولدمج التماثل الهيكلي في شبكة ذات تدفقين لتدريب نموذج من البداية إلى النهاية، نقوم بتقسيم مصفوفة التكلفة الإدخالية إلى كتل مكانيّة صغيرة، ونصمم وحدة سينكورن قابلة للتفاضل تتكون من طبقة سينكورن طويلة المدى وطبقة سينكورن قصيرة المدى. ندمج هذه الوحدة في شبكة ذات تدفقين مخصصة، ونسمي نموذجنا "ترانسポート نت" (TransportNet). تُظهر تجاربنا أن محاذاة الحركة والملامح تُحقق نتائج متقدمة على مستوى التقنيات الحالية في مجموعات بيانات الفصل الكائنات في الفيديو الشهيرة.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| unsupervised-video-object-segmentation-on-10 | TransportNet | F: 85.0 G: 84.8 J: 84.5 |
| unsupervised-video-object-segmentation-on-11 | TransportNet | J: 78.7 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.