HyperAIHyperAI
منذ 16 أيام

بيرسيفر: الإدراك العام باستخدام الانتباه التكراري

Andrew Jaegle, Felix Gimeno, Andrew Brock, Andrew Zisserman, Oriol Vinyals, Joao Carreira
بيرسيفر: الإدراك العام باستخدام الانتباه التكراري
الملخص

تستشعر الأنظمة البيولوجية العالم من خلال معالجة متزامنة لمدخلات عالية الأبعاد من أشكال متنوعة، مثل الرؤية، والسمع، واللمس، والإدراك البدني (البروبريوسيشن)، إلخ. أما نماذج الإدراك المستخدمة في التعلم العميق، فهي مصممة لكي تتعامل مع كل من هذه الأشكال بشكل منفصل، وغالبًا ما تعتمد على افتراضات محددة بالقطاع، مثل الهياكل الشبكية المحلية التي تستغلها جميع نماذج الرؤية الحالية تقريبًا. هذه الافتراضات تُدخل تحيزات استدلالية مفيدة، لكنها تُقيّد النماذج بمعظم الأشكال الفردية. في هذه الورقة، نقدّم نموذج "البَيَّان" (Perceiver) – وهو نموذج يُبنى على مُحَوِّلات (Transformers)، وبالتالي يفرض افتراضات محدودة جدًا حول العلاقة بين مدخلاته، ولكنه يُمكّن أيضًا من التوسع ليدعم مئات الآلاف من المدخلات، تمامًا كما تفعل الشبكات العصبية التلافيفية (ConvNets). يستخدم النموذج آلية انتباه غير متماثلة لتقليل المدخلات تدريجيًا إلى عقدة مُتَوَزِّنة ضيقة (Latent Bottleneck)، مما يمكّنه من التوسع لمعالجة مدخلات ضخمة جدًا. ونُظهر أن هذه البنية التنظيمية تُنافس أو تتفوق على نماذج قوية ومخصصة في مهام التصنيف عبر مجموعة متنوعة من الأشكال: الصور، وسحابات النقط (point clouds)، والصوت، والفيديو، والفيديو مع الصوت. ويحقق نموذج "البَيَّان" أداءً مماثلًا لنموذج ResNet-50 وViT على مجموعة بيانات ImageNet دون استخدام التحويلات التلافيفية الثنائية الأبعاد (2D convolutions)، وذلك من خلال الانتباه مباشرة إلى 50,000 بكسل. كما يُظهر أداءً تنافسيًا في جميع الأشكال على مجموعة بيانات AudioSet.

بيرسيفر: الإدراك العام باستخدام الانتباه التكراري | أحدث الأوراق البحثية | HyperAI