HyperAIHyperAI
منذ 18 أيام

إطارية بوسيتlet: نموذج للتعرف على الأنشطة البشرية

{Michalis Raptis, Leonid Sigal}
إطارية بوسيتlet: نموذج للتعرف على الأنشطة البشرية
الملخص

في هذه الورقة، نطور نموذجًا جديدًا للتعرف على الأفعال البشرية. حيث نُمَثِّل الفعل كسلسلة نادرة جدًا من مجموعات الإطارات الرئيسية المميزة محليًا عبر الزمن، والتي تتكون من مواقف جزئية للفاعل(الفاعلين)، وتمثّل الحالات الأساسية في تسلسل الفعل. نُصِرِّط عملية تعلُّم الإطارات الرئيسية ضمن إطار تمييزي مبني على الحد الأقصى للهامش (max-margin discriminative framework)، حيث نعامل الإطارات الرئيسية كمتغيرات خفية. هذا يمكّننا من تعلُّم مجموعة من الإطارات الرئيسية الأكثر تمييزًا بشكل مشترك، مع تعلُّم السياق الزمني المحلي بينها في آنٍ واحد. تُشَكِّل الإطارات الرئيسية باستخدام تمثيل مشابه لـ "بوسيت" (poselet-like) مُحَدَّد مكانيًا، يعتمد على مكونات التمثيل المبني على HoG (Histogram of Oriented Gradients) وBoW (Bag of Words)، التي تُتعلَّم من تسميات ضعيفة؛ ونعتمد نموذج SVM الهيكلي (structured SVM) لتوحيد مكونات النموذج وتحديد السلبيات الصعبة (hard negatives) لتعزيز أداء التحديد المكاني. يؤدي هذا إلى نموذج يدعم التحديد المكاني والزمني، ويكون أقل حساسية لفقدان الإطارات أو الملاحظات الجزئية. نُظهر أداء تصنيف يتنافس مع أحدث النماذج على مجموعة بيانات المعيار UT-Interaction، ونُظهِر أن نموذجنا يتفوّق على الطرق السابقة في بيئة تدفق البيانات الحية (on-line streaming).