HyperAIHyperAI

Command Palette

Search for a command to run...

الانتباه الذاتي العلاقة: ما يُفتقَد في الانتباه لفهم الفيديو

Manjin Kim Heeseung Kwon Chunyu Wang Suha Kwak Minsu Cho

الملخص

يمثل التحويل التوافقي (Convolution) على الأرجح أكثر التحويلات المميزة أهمية في الشبكات العصبية الحديثة، مما ساهم بشكل كبير في تطور التعلم العميق. ومع ظهور الشبكات المُعتمدة على مُحولات المُحَوِّل (Transformer) مؤخرًا، التي استبدلت طبقات التحويل التوافقي بكتل الانتباه الذاتي (self-attention)، أصبح من الواضح حدود النوى الثابتة للتحويل التوافقي، وفتح الباب أمام عصر التحويلات المميزة الديناميكية. ومع ذلك، فإن التحويلات الديناميكية الحالية، بما في ذلك الانتباه الذاتي، تظل محدودة في مهام فهم الفيديو، حيث تُعدّ العلاقات المكانية والزمنية، أي معلومات الحركة، حاسمة لتمثيل فعّال. في هذا العمل، نقدّم تحويلًا مميزًا ارتباطيًا يُسمى "الانتباه الذاتي الارتباطي" (Relational Self-Attention - RSA)، والذي يستفيد من البنية الغنية للعلاقات المكانية-الزمنية في الفيديوهات من خلال توليد نوى ارتباطية ديناميكية وجمع السياقات الارتباطية. تُظهر تجاربنا والدراسات التحليلية أن شبكة RSA تتفوق بشكل كبير على نماذج التحويل التوافقي والانتباه الذاتي، وتُحقق أفضل النتائج على المعايير القياسية المركّزة على الحركة في تصنيف أفعال الفيديو، مثل مجموعة بيانات Something-Something-V1 & V2، وDiving48، وFineGym.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp