HyperAIHyperAI

Command Palette

Search for a command to run...

نقل الانتباه أكثر إلى كشف الكائنات البارزة في الفيديو

Jianbing Shen Ming-Ming Cheng Wenguan Wang Deng-Ping Fan

الملخص

شهد العقد الماضي ازديادًا متزايدًا في الاهتمام باكتشاف الكائنات البارزة في الفيديو (VSOD). ومع ذلك، كان هناك نقص طويل الأمد في مجتمع البحث في وجود مجموعة بيانات موثقة جيدًا لـ VSOD تمثل المشاهد الديناميكية الحقيقية مع تسميات عالية الجودة. ولحل هذه المشكلة، قمنا بجمع مجموعة بيانات مُسمّاة DAVSOD (DAVSOD: مجموعة بيانات مُسَمّاة بكثافة ومتوافقة مع الانتباه البصري)، والتي تحتوي على 226 فيديو يضمّ 23,938 إطارًا، وتغطي مشاهد واقعية متنوعة، وكائنات وInstances وحركات متنوعة. وباستخدام بيانات التثبيت البصري البشرية الحقيقية المقابلة، تم الحصول على قيم أساسية دقيقة. هذه أول دراسة تُبرز بشكل صريح تحدي "الانزياح في البارزية" (saliency shift)، أي أن الكائن البارز في الفيديو قد يتغير ديناميكيًا. ولمساهمة إضافية في تطوير المجتمع، قمنا بتقييم منهجي لـ 17 خوارزمية متميزة لـ VSOD على سبع مجموعات بيانات موجودة لـ VSOD، بالإضافة إلى مجموعة DAVSOD، بمجموع 84,000 إطار (الأكبر على الإطلاق من حيث الحجم). وباستخدام ثلاث مقاييس شهيرة، قدمنا تحليلًا أداءً شاملاً وواعدًا. علاوةً على ذلك، اقترحنا نموذجًا أساسيًا (baseline) مزودًا بـ convLSTM يُراعي انزياح البارزية، والذي يمكنه التقاط ديناميكية البارزية في الفيديو بكفاءة من خلال تعلّم سلوك تغير الانتباه البشري. وفتحت التجارب الواسعة آفاقًا واعدة لتطوير النماذج ومقارنتها في المستقبل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp