HyperAIHyperAI
منذ 17 أيام

AssembleNet++: تجميع تمثيلات الوسائط من خلال اتصالات الانتباه

Michael S. Ryoo, AJ Piergiovanni, Juhana Kangaspunta, Anelia Angelova
AssembleNet++: تجميع تمثيلات الوسائط من خلال اتصالات الانتباه
الملخص

نُنشئ عائلة من نماذج الفيديو القوية التي تمتلك القدرة على: (أ) تعلُّم التفاعلات بين معلومات الكائنات المعنوية والسمات الخشنة للشكل والحركة، و(ب) تطبيق الانتباه بهدف تحسين فهم أهمية السمات في كل كتلة تقوسية داخل الشبكة. تم تقديم مكوّن جديد للشبكة يُسمّى "الانتباه بين الأقران" (peer-attention)، الذي يتعلّم بشكل ديناميكي أوزان الانتباه باستخدام كتلة أخرى أو نمط إدخال مختلف. حتى بدون تدريب مسبق، تتفوّق نماذجنا على الأداء السابق في مجموعات بيانات التعرف على الأنشطة العامة القياسية التي تعتمد على مقاطع فيديو مستمرة، مما يُسجّل حالة جديدة من أفضل الأداء الممكن. كما نؤكد أن نتائجنا المتعلقة بوجود اتصالات عصبية من نمط الكائنات واستخدام الانتباه بين الأقران قابلة للتطبيق بشكل عام على معمليات معمارية مختلفة، ما يؤدي إلى تحسين أدائها. ونُسمّي نموذجنا صراحةً باسم AssembleNet++. سيتم إتاحة الكود على الرابط التالي: https://sites.google.com/corp/view/assemblenet/