الانتباه الذاتي العلاقة: ما يُفتقَد في الانتباه لفهم الفيديو

يمثل التحويل التوافقي (Convolution) على الأرجح أكثر التحويلات المميزة أهمية في الشبكات العصبية الحديثة، مما ساهم بشكل كبير في تطور التعلم العميق. ومع ظهور الشبكات المُعتمدة على مُحولات المُحَوِّل (Transformer) مؤخرًا، التي استبدلت طبقات التحويل التوافقي بكتل الانتباه الذاتي (self-attention)، أصبح من الواضح حدود النوى الثابتة للتحويل التوافقي، وفتح الباب أمام عصر التحويلات المميزة الديناميكية. ومع ذلك، فإن التحويلات الديناميكية الحالية، بما في ذلك الانتباه الذاتي، تظل محدودة في مهام فهم الفيديو، حيث تُعدّ العلاقات المكانية والزمنية، أي معلومات الحركة، حاسمة لتمثيل فعّال. في هذا العمل، نقدّم تحويلًا مميزًا ارتباطيًا يُسمى "الانتباه الذاتي الارتباطي" (Relational Self-Attention - RSA)، والذي يستفيد من البنية الغنية للعلاقات المكانية-الزمنية في الفيديوهات من خلال توليد نوى ارتباطية ديناميكية وجمع السياقات الارتباطية. تُظهر تجاربنا والدراسات التحليلية أن شبكة RSA تتفوق بشكل كبير على نماذج التحويل التوافقي والانتباه الذاتي، وتُحقق أفضل النتائج على المعايير القياسية المركّزة على الحركة في تصنيف أفعال الفيديو، مثل مجموعة بيانات Something-Something-V1 & V2، وDiving48، وFineGym.