AssembleNet: البحث عن الاتصال العصبي متعدد التدفقات في هياكل الفيديو

تعلم تمثيل الفيديوهات هو مهمة صعبة للغاية من الناحيتين الخوارزمية والحسابية. لقد تم تصميم معماريات الشبكات العصبية المت convo�ionale (CNN) القياسية للفيديو عن طريق توسيع المعماريات التي تم تطويرها لفهم الصور لتتضمن البعد الزمني، باستخدام وحدات مثل التحويلات ثلاثية الأبعاد (3D convolutions)، أو عن طريق استخدام تصميم ذو مسارين (two-stream design) للتقاط كل من المظهر والحركة في الفيديوهات. نقوم بتفسير شبكة CNN للفيديو كمجموعة من الكتل التلافيفية متعددة المسارات المتصلة ببعضها البعض، ونقترح نهجًا يتم فيه البحث تلقائيًا عن معماريات عصبية ذات اتصال أفضل وتفاعلات زمانية-مكانية أفضل لفهم الفيديو. يتم هذا من خلال تطور مجموعة من المعماريات ذات الاتصال الزائد بقيادة تعلم وزن الاتصال. يتم البحث عن معماريات تجمع بين التمثيلات التي تستخلص أنواعًا مختلفة من الإدخال (أي، RGB وتدفق الضوء البصري) بحلول زمنية متعددة، مما يسمح لأنواع مختلفة أو مصادر المعلومات بالتفاعل مع بعضها البعض. طريقتنا، والتي نشير إليها باسم AssembleNet، تتفوق على الأساليب السابقة في مجموعات البيانات العامة للفيديو، وفي بعض الحالات بمقدار كبير. حصلنا على دقة 58.6% mAP في Charades وعلى نسبة دقة 34.27% في Moments-in-Time.