HyperAIHyperAI

Command Palette

Search for a command to run...

الانتباه النادر القائم على المحتوى بكفاءة مع المحولات التوجيهية

Aurko Roy Mohammad Saffar Ashish Vaswani David Grangier

الملخص

تم تبني الانتباه الذاتي مؤخرًا في مجموعة واسعة من مسائل نمذجة التسلسل. وعلى الرغم من فعاليته، يعاني الانتباه الذاتي من متطلبات حسابية وذاكرة تربيعية بالنسبة لطول التسلسل. ركزت النماذج الناجحة لتقليل هذه التعقيدات على الانتباه إلى نوافذ منزلقة محلية أو مجموعة صغيرة من المواقع المستقلة عن المحتوى. وتقترح هذه الدراسة تعلم أنماط انتباه نادرة ديناميكية تتجنب تخصيص الموارد الحسابية والذاكرة لانتباه محتوى غير ذي صلة بالاستعلام المطلوب. تعتمد هذه الدراسة على خطين من الأبحاث: فهي تجمع بين مرونة النماذج السابقة في الانتباه النادر القائم على المحتوى، وفوائد الكفاءة المحققة من النماذج القائمة على الانتباه النادر المحلي والزمني. يُعد نموذجنا، المسمى "Transformer التوجيهي"، مزودًا بوحدة توجيه نادرة تعتمد على خوارزمية k-means عبر الإنترنت، مما يقلل من التعقيد الكلي للانتباه من (O(n^2d)) إلى (O(n^{1.5}d)) بالنسبة لطول التسلسل (n) وبعد المخزن الداخلي (d). ونُظهر أن نموذجنا يتفوق على النماذج المشابهة من الانتباه النادر في مهام نمذجة اللغة على مجموعة بيانات Wikitext-103 (15.8 مقابل 18.3 لمعيار التباس)، وكذلك في مهام توليد الصور على مجموعة بيانات ImageNet-64 (3.43 مقابل 3.44 بت/بعد)، مع استخدام عدد أقل من طبقات الانتباه الذاتي. علاوةً على ذلك، حقق نموذجنا حالة جديدة من الأفضلية في مجموعة بيانات PG-19 المُعَدّة حديثًا، حيث توصل إلى قيمة لمعيار التباس تبلغ 33.2 باستخدام نموذج Transformer التوجيهي مكوّن من 22 طبقة، مدربًا على تسلسلات طولها 8192.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp