HyperAIHyperAI

Command Palette

Search for a command to run...

بيرسيفر: الإدراك العام باستخدام الانتباه التكراري

Andrew Jaegle Felix Gimeno Andrew Brock Andrew Zisserman Oriol Vinyals Joao Carreira

الملخص

تستشعر الأنظمة البيولوجية العالم من خلال معالجة متزامنة لمدخلات عالية الأبعاد من أشكال متنوعة، مثل الرؤية، والسمع، واللمس، والإدراك البدني (البروبريوسيشن)، إلخ. أما نماذج الإدراك المستخدمة في التعلم العميق، فهي مصممة لكي تتعامل مع كل من هذه الأشكال بشكل منفصل، وغالبًا ما تعتمد على افتراضات محددة بالقطاع، مثل الهياكل الشبكية المحلية التي تستغلها جميع نماذج الرؤية الحالية تقريبًا. هذه الافتراضات تُدخل تحيزات استدلالية مفيدة، لكنها تُقيّد النماذج بمعظم الأشكال الفردية. في هذه الورقة، نقدّم نموذج "البَيَّان" (Perceiver) – وهو نموذج يُبنى على مُحَوِّلات (Transformers)، وبالتالي يفرض افتراضات محدودة جدًا حول العلاقة بين مدخلاته، ولكنه يُمكّن أيضًا من التوسع ليدعم مئات الآلاف من المدخلات، تمامًا كما تفعل الشبكات العصبية التلافيفية (ConvNets). يستخدم النموذج آلية انتباه غير متماثلة لتقليل المدخلات تدريجيًا إلى عقدة مُتَوَزِّنة ضيقة (Latent Bottleneck)، مما يمكّنه من التوسع لمعالجة مدخلات ضخمة جدًا. ونُظهر أن هذه البنية التنظيمية تُنافس أو تتفوق على نماذج قوية ومخصصة في مهام التصنيف عبر مجموعة متنوعة من الأشكال: الصور، وسحابات النقط (point clouds)، والصوت، والفيديو، والفيديو مع الصوت. ويحقق نموذج "البَيَّان" أداءً مماثلًا لنموذج ResNet-50 وViT على مجموعة بيانات ImageNet دون استخدام التحويلات التلافيفية الثنائية الأبعاد (2D convolutions)، وذلك من خلال الانتباه مباشرة إلى 50,000 بكسل. كما يُظهر أداءً تنافسيًا في جميع الأشكال على مجموعة بيانات AudioSet.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp