HyperAIHyperAI
منذ 2 أشهر

التمييز الزمني الفعلي المركز حول الإنسان لمشاهد الفيديو المعقدة

Yu, Ran ; Tian, Chenyu ; Xia, Weihao ; Zhao, Xinyuan ; Wang, Haoqian ; Yang, Yujiu
التمييز الزمني الفعلي المركز حول الإنسان لمشاهد الفيديو المعقدة
الملخص

معظم المهام الفيديوية الحالية المتعلقة بـ "الإنسان" تركز على تقسيم الأشخاص البارزين، وتتجاهل الآخرين غير المحددين في الفيديو. قليل من الدراسات ركزت على تقسيم وتتبع جميع الأشخاص في فيديو معقد، بما في ذلك المشاة والأشخاص في حالات أخرى (مثل الجلوس، الركوب، أو التغطية). في هذا البحث، نقترح إطارًا جديدًا مختصره كـ HVISNet، يقوم بتقسيم وتتبع جميع الأشخاص المعروضين في الفيديوهات المعطاة باستخدام كاشف واحد المرحلة. لتقدير المشاهد المعقدة بشكل أفضل، نقدم مقاييس جديدة تسمى HVIS (تقسيم النماذج الفيديوية للإنسان)، والتي تتكون من 1447 قناعًا لنماذج الإنسان في 805 فيديوهات بدقة عالية ومتنوعة. تظهر التجارب الواسعة أن الإطار المقترح HVISNet يتفوق على الأساليب الأكثر تقدمًا من حيث الدقة عند سرعة استدلال الوقت الحقيقي (30 إطارًا في الثانية)، خاصةً في المشاهد الفيديوية المعقدة. كما لاحظنا أن استخدام مركز الصندوق الحدودي لتمييز الأفراد المختلفين يؤدي إلى تدهور كبير في دقة التقسيم، خاصةً تحت ظروف التغطية الشديدة. يشار إلى هذه الظاهرة الشائعة باسم مشكلة العينات الإيجابية الغامضة. لحل هذه المشكلة، نقترح آلية تسمى Inner Center Sampling (عينة المركز الداخلية) لتحسين دقة تقسيم النموذج. يمكن دمج مثل هذه الآلية القابلة للتطبيق المباشر في أي نماذج تقسيم نموذجي تعتمد على كاشف واحد المرحلة لتحسين الأداء. بشكل خاص، فإنها تحصل على تحسين بمقدار 4.1 mAP على الطريقة الأكثر تقدمًا في حالة الأشخاص المغطّين. الرمز والبيانات متوفّران على https://github.com/IIGROUP/HVISNet.