HyperAIHyperAI
منذ 2 أشهر

RANet: شبكة الانتباه للتصنيف لتقسيم الأشياء في الفيديو بسرعة

Ziqin Wang; Jun Xu; Li Liu; Fan Zhu; Ling Shao
RANet: شبكة الانتباه للتصنيف لتقسيم الأشياء في الفيديو بسرعة
الملخص

رغم أن تقنيات التعلم عبر الإنترنت (OL) قد أImprovedت أداء طرق تقسيم الكائنات في الفيديو شبه المراقبة (VOS)، فإن الكلفة الزمنية الكبيرة للتعلم عبر الإنترنت (OL) تقيّد بشكل كبير من جدواها العملية. تعمل الطرق المستندة إلى التطابق والانتشار بسرعة أكبر من خلال تجنب استخدام تقنيات OL. ومع ذلك، فإن دقتها غير مثلى بسبب مشكلتي عدم التطابق والتشرد. في هذا البحث، نطور شبكة انتباه الرتبة (RANet) التي تعمل في الوقت الحقيقي وتحقيق دقة عالية لتقسيم الكائنات في الفيديو (VOS). تحديداً، لدمج رؤى الطرق المستندة إلى التطابق والانتشار، نستخدم إطار عمل مشفّر-مفكك لتعلم التشابه على مستوى البكسل والتقسيم بطريقة شاملة. لاستخدام أفضل للخرائط الشبيهة، نقترح وحدة انتباه رتبة جديدة تقوم بتقييم وتختار هذه الخرائط تلقائياً لتحقيق أداء دقيق للغاية في VOS. أظهرت التجارب على مجموعات بيانات DAVIS-16 وDAVIS-17 أن شبكتنا RANet تحقق أفضل توازن بين السرعة والدقة، مثل تحقيق 33 ملي ثانية لكل إطار وJ&F=85.5% على DAVIS-16. عند استخدام OL، تصل شبكتنا RANet إلى J&F=87.1% على DAVIS-16، مما يتجاوز أفضل الطرق الحالية في VOS. يمكن العثور على الرمز البرمجي في https://github.com/Storife/RANet.请注意,上文中的 "Improved" 应该是 "حسّنت" 更为准确。以下是修正后的版本:رغم أن تقنيات التعلم عبر الإنترنت (OL) قد حسّنت أداء طرق تقسيم الكائنات في الفيديو شبه المراقبة (VOS)، فإن الكلفة الزمنية الكبيرة للتعلم عبر الإنترنت (OL) تقيّد بشكل كبير من جدواها العملية. تعمل الطرق المستندة إلى التطابق والانتشار بسرعة أكبر من خلال تجنب استخدام تقنيات OL. ومع ذلك، فإن دقتها غير مثلى بسبب مشكلتي عدم التطابق والتشرد. في هذا البحث، نطور شبكة انتباه الرتبة (RANet) التي تعمل في الوقت الحقيقي وتحقيق دقة عالية لتقسيم الكائنات في الفيديو (VOS). تحديداً، لدمج رؤى الطرق المستندة إلى التطابق والانتشار، نستخدم إطار عمل مشفّر-مفكك لتعلم التشابه على مستوى البكسل والتقسيم بطريقة شاملة. لاستخدام أفضل للخرائط الشبيهة، نقترح وحدة انتباه رتبة جديدة تقوم بتقييم وتختار هذه الخرائط تلقائياً لتحقيق أداء دقيق للغاية في VOS. أظهرت التجارب على مجموعات بيانات DAVIS-16 وDAVIS-17 أن شبكتنا RANet تحقق أفضل توازن بين السرعة والدقة، مثل تحقيق 33 ملي ثانية لكل إطار وJ&F=85.5% على DAVIS-16. عند استخدام OL، تصل شبكتنا RANet إلى J&F=87.1% على DAVIS-16، مما يتجاوز أفضل الطرق الحالية في VOS. يمكن العثور على الرمز البرمجي في https://github.com/Storife/RANet.

RANet: شبكة الانتباه للتصنيف لتقسيم الأشياء في الفيديو بسرعة | أحدث الأوراق البحثية | HyperAI