HyperAIHyperAI

Command Palette

Search for a command to run...

الدمج متعدد المصادر واختيار المتنبئ التلقائي للتمييز بين الكائنات في الفيديو بدون أمثلة سابقة

Xiaoqi Zhao Youwei Pang Jiaxing Yang Lihe Zhang Huchuan Lu

الملخص

الموقع والمظهر هما المؤشران الرئيسيان لتقسيم الأشياء في الفيديو. يمكن لمصادر عديدة مثل RGB، العمق، التدفق البصري والبروز الثابت أن توفر معلومات مفيدة عن الأشياء. ومع ذلك، فإن الأساليب الحالية تستفيد فقط من RGB أو من RGB والتدفق البصري معًا. في هذا البحث، نقترح شبكة تكامل متعددة المصادر جديدة لتقسيم الأشياء في الفيديو بدون تعلم مسبق (Zero-Shot Video Object Segmentation). بمساعدة وحدة الانتباه المكاني الذاتي (Interoceptive Spatial Attention Module - ISAM)، يتم تسليط الضوء على الأهمية المكانية لكل مصدر. بالإضافة إلى ذلك، صممنا وحدة تنقية الميزات (Feature Purification Module - FPM) لتصفية الميزات غير المتوافقة بين المصادر. من خلال ISAM وFPM، يتم دمج الميزات المتعددة المصادر بشكل فعال. كما اقترحنا شبكة اختيار التنبؤ التلقائي (Automatic Predictor Selection Network - APS) لاختيار أفضل تنبؤ إما من المنبه البروز الثابت أو المنبه الكائن المتحرك وذلك للحيلولة دون الاعتماد الزائد على النتائج الفاشلة التي تسببها خرائط التدفق البصري ذات الجودة المنخفضة. أظهرت التجارب الواسعة على ثلاثة مقاييس عامة صعبة (أي DAVIS16_{16}16، Youtube-Objects وFBMS) أن النموذج المقترح يحقق أداءً مقنعاً مقابل أفضل الأساليب الحالية. سيتم توفير الشيفرة المصدرية بشكل عام في \textcolor{red}{\url{https://github.com/Xiaoqi-Zhao-DLUT/Multi-Source-APS-ZVOS}}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الدمج متعدد المصادر واختيار المتنبئ التلقائي للتمييز بين الكائنات في الفيديو بدون أمثلة سابقة | مستندات | HyperAI