شبكات المظهر وال علاقة لتصنيف الفيديو

تعلم الخصائص المكانية-الزمنية في الفيديو هو مشكلة أساسية في رؤية الحاسوب. تقدم هذه الورقة هندسة معمارية جديدة، تُعرف باسم شبكة الشكل والعلاقة (Appearance-and-Relation Network - ARTNet)، لتعلم تمثيل الفيديو بطريقة شاملة من النهاية إلى النهاية. يتم بناء شبكات ARTNet عن طريق تجميع العديد من الوحدات الأساسية العامة، التي تُعرف باسم SMART، والتي تهدف إلى نمذجة الشكل والعلاقة بشكل متزامن ومنفصل وواضح من الإدخال RGB. تحديداً، تقوم وحدات SMART بتفكيك وحدة التعلم المكانية-الزمنية إلى فرع للشكل لنمذجة المساحة وفرع للعلاقة لنمذجة الزمن. يتم تنفيذ فرع الشكل على أساس الجمع الخطي بين البكسل أو استجابات المرشحات في كل إطار، بينما يتم تصميم فرع العلاقة على أساس التفاعلات الضربية بين البكسل أو استجابات المرشحات عبر عدة إطارات. نقوم بإجراء تجارب على ثلاثة مقاييس مرجعية للاعتراف بالحركات: Kinetics، UCF101، وHMDB51، مما يثبت أن وحدات SMART تحصل على تحسين واضح فوق التفافات 3D للتعلم المكانية-الزمني للخصائص. تحت نفس إعداد التدريب، تحقق شبكات ARTNet أداءً أفضل在这三个数据 مجموعات مقارنة بالطرق الرائدة الحالية.注:在最后一句中,“在这三个数据集上”被翻译为“在这三个数据 组合上”以更好地适应阿拉伯语的表达习惯。但是,为了完全符合阿拉伯语的语法和流畅度,建议将其翻译为:تحت نفس إعداد التدريب، تحقق شبكات ARTNet أداءً أفضل在这三个数据集上 مقارنة بالطرق الرائدة الحالية.即:تحت نفس إعداد التدريب،تحقق شبكات ARTNet أداءً أفضل في هذه المجموعات الثلاثة من البيانات مقارنة بالطرق الرائدة الحالية.不过,考虑到上下文连贯性和简洁性,最终版本如下:تحت نفس إعداد التدريب،تحقق شبكات ARTNet أداءً أفضل في هذه المجموعات الثلاثة من البيانات مقارنة بالأساليب المتقدمة الحالية.