HyperAIHyperAI
منذ 2 أشهر

التعرف على الأنشطة متعددة التصنيفات دون تمييز بين الممثلين باستخدام استعلامات متعددة الوسائط

Mondal, Anindya ; Nag, Sauradip ; Prada, Joaquin M ; Zhu, Xiatian ; Dutta, Anjan
التعرف على الأنشطة متعددة التصنيفات دون تمييز بين الممثلين باستخدام استعلامات متعددة الوسائط
الملخص

تتطلب طرق التعرف على الأفعال الحالية عادةً تحديد الممثلين بسبب الاختلافات الطوبولوجية والظاهرية الجوهرية بينهم. وهذا يعني ضرورة تقدير وضعيات ممثلة محددة (مثلاً، البشر مقابل الحيوانات)، مما يؤدي إلى تعقيد تصميم النماذج وتكاليف صيانة عالية. بالإضافة إلى ذلك، تركز هذه الطرق عادةً على تعلم الوسيلة البصرية وحدها وعلى تصنيف العلامة الواحدة بينما تتجاهل مصادر المعلومات المتاحة الأخرى (مثل نص اسم الفئة) والوقوع المتزامن لأفعال متعددة. لتجاوز هذه القيود، نقترح منهجًا جديدًا يُسمى "التعرف على الأفعال متعدد الوسائط ومحدد العلامات بدون تمييز بين الممثلين"، والذي يقدم حلًا موحدًا لأنواع مختلفة من الممثلين، بما في ذلك البشر والحيوانات. كما نقدم نموذج شبكة استعلامات معنى متعددة الوسائط (MSQNet) جديد في إطار كشف الأجسام المستند إلى المحولات (مثلاً، DETR)، يتميز باستخدام الوسيلتين البصرية والنصية لتمثيل فئات الأفعال بشكل أفضل. يعتبر إلغاء تصميمات النماذج الخاصة بالممثلين ميزة رئيسية، حيث أنه يزيل الحاجة إلى تقدير وضعيات الممثلين تمامًا. أظهرت التجارب الشاملة على خمسة مقاييس عامة أن MSQNet يتفوق باستمرار على الأساليب السابقة الخاصة بالممثلين في مهام التعرف على الأفعال ذات العلامة الواحدة والعلامات المتعددة للبشر والحيوانات بنسبة تصل إلى 50%. يمكن الوصول إلى الكود عبر الرابط https://github.com/mondalanindya/MSQNet.

التعرف على الأنشطة متعددة التصنيفات دون تمييز بين الممثلين باستخدام استعلامات متعددة الوسائط | أحدث الأوراق البحثية | HyperAI