HyperAIHyperAI

Command Palette

Search for a command to run...

التمييز الزمني الفعلي المركز حول الإنسان لمشاهد الفيديو المعقدة

Ran Yu Chenyu Tian Weihao Xia Xinyuan Zhao Haoqian Wang Yujiu Yang

الملخص

معظم المهام الفيديوية الحالية المتعلقة بـ "الإنسان" تركز على تقسيم الأشخاص البارزين، وتتجاهل الآخرين غير المحددين في الفيديو. قليل من الدراسات ركزت على تقسيم وتتبع جميع الأشخاص في فيديو معقد، بما في ذلك المشاة والأشخاص في حالات أخرى (مثل الجلوس، الركوب، أو التغطية). في هذا البحث، نقترح إطارًا جديدًا مختصره كـ HVISNet، يقوم بتقسيم وتتبع جميع الأشخاص المعروضين في الفيديوهات المعطاة باستخدام كاشف واحد المرحلة. لتقدير المشاهد المعقدة بشكل أفضل، نقدم مقاييس جديدة تسمى HVIS (تقسيم النماذج الفيديوية للإنسان)، والتي تتكون من 1447 قناعًا لنماذج الإنسان في 805 فيديوهات بدقة عالية ومتنوعة. تظهر التجارب الواسعة أن الإطار المقترح HVISNet يتفوق على الأساليب الأكثر تقدمًا من حيث الدقة عند سرعة استدلال الوقت الحقيقي (30 إطارًا في الثانية)، خاصةً في المشاهد الفيديوية المعقدة. كما لاحظنا أن استخدام مركز الصندوق الحدودي لتمييز الأفراد المختلفين يؤدي إلى تدهور كبير في دقة التقسيم، خاصةً تحت ظروف التغطية الشديدة. يشار إلى هذه الظاهرة الشائعة باسم مشكلة العينات الإيجابية الغامضة. لحل هذه المشكلة، نقترح آلية تسمى Inner Center Sampling (عينة المركز الداخلية) لتحسين دقة تقسيم النموذج. يمكن دمج مثل هذه الآلية القابلة للتطبيق المباشر في أي نماذج تقسيم نموذجي تعتمد على كاشف واحد المرحلة لتحسين الأداء. بشكل خاص، فإنها تحصل على تحسين بمقدار 4.1 mAP على الطريقة الأكثر تقدمًا في حالة الأشخاص المغطّين. الرمز والبيانات متوفّران على https://github.com/IIGROUP/HVISNet.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp