HyperAIHyperAI
منذ 2 أشهر

AOE-Net: نمذجة تفاعلات الكيانات باستخدام آلية الانتباه التكيفي لتوليد اقتراحات الأفعال الزمنية

Khoa Vo; Sang Truong; Kashu Yamazaki; Bhiksha Raj; Minh-Triet Tran; Ngan Le
AOE-Net: نمذجة تفاعلات الكيانات باستخدام آلية الانتباه التكيفي لتوليد اقتراحات الأفعال الزمنية
الملخص

توليد مقترحات الأنشطة الزمنية (TAPG) هو مهمة صعبة تتطلب تحديد فترات الأنشطة في فيديو غير مقصوص. بشكل حدسي، نحن كبشر ندرك النشاط من خلال التفاعلات بين الممثلين، والأجسام ذات الصلة، والبيئة المحيطة. رغم التقدم الملحوظ في مجال TAPG، فإن معظم الطرق الموجودة تتجاهل المبدأ المشار إليه أعلاه لعملية الإدراك البشرية من خلال تطبيق شبكة أساسية على الفيديو المعطى كصندوق أسود. في هذا البحث، نقترح نمذجة هذه التفاعلات باستخدام شبكة تمثيل متعددة الوسائط، والتي نطلق عليها اسم شبكة تفاعل الممثلين-الأجسام-البيئة (AOE-Net). يتكون AOE-Net من وحدتين، وهما: وحدة التمثيل المتعدد للوسائط القائمة على الإدراك (PMR) ووحدة مطابقة الحدود (BMM). بالإضافة إلى ذلك، قمنا بتطبيق آلية انتباه متكيفة (AAM) في PMR لتركيز الانتباه فقط على الممثلين الرئيسيين (أو الأجسام ذات الصلة) ونمذجة العلاقات فيما بينهم. تمثل وحدة PMR كل جزء من الفيديو بميزة بصرية-لغوية، حيث يتم تمثيل الممثلين الرئيسيين والبيئة المحيطة بالمعلومات البصرية، بينما يتم تصوير الأجسام ذات الصلة بالميزات اللغوية عبر نموذج الصورة-النص. تقوم وحدة BMM بمعالجة سلسلة من الميزات البصرية-اللغوية كمدخل لها وتوليد مقترحات الأنشطة. تظهر التجارب الشاملة والدراسات التقليصية الواسعة التي أجريت على مجموعتي البيانات ActivityNet-1.3 وTHUMOS-14 أن شبكتنا المقترحة AOE-Net تتفوق على الأساليب السابقة الأكثر تقدماً بأداء ملحوظ وقدرة تعميم عالية لكل من TAPG وكشف الأنشطة الزمنية. لإثبات صلابة وفعالية AOE-Net، أجرينا دراسة تقليصية إضافية على الفيديوهات الذاتية المركز (egocentric videos)، أي مجموعة بيانات EPIC-KITCHENS 100. سيتم توفير الكود المصدر عند قبول البحث.

AOE-Net: نمذجة تفاعلات الكيانات باستخدام آلية الانتباه التكيفي لتوليد اقتراحات الأفعال الزمنية | أحدث الأوراق البحثية | HyperAI