HyperAIHyperAI

Command Palette

Search for a command to run...

تعزيز أقصر خشبة في الانتباه: تحسين وعي النموذج اللغوي الكبير بالسياق لاستخدام فعّال للأدوات

Yuhan Chen Ang Lv Ting-En Lin Changyu Chen Yuchuan Wu Fei Huang Yongbin Li Rui Yan

الملخص

في هذه الورقة، نُظهر أن نمطًا مُتأصِّلًا في موجة توزيع الانتباه في نماذج اللغة الكبيرة (LLMs) يؤثر بشكل كبير على أدائها في المهام التي تتطلب درجة عالية من الوعي بالسياق، مثل استخدام نماذج اللغة الكبيرة لأغراض الأدوات (tool-use). وبشكل خاص، قد يتم تجاهل المعلومات الحاسمة في السياق من قبل النموذج عند وقوعها في المنطقة المنخفضة (الوادي) لموجة الانتباه، مما يؤدي إلى تراجع الأداء. ولحل هذه المشكلة، نُقدِّم طريقة استنتاج جديدة تُسمَّى "صناديق الانتباه" (Attention Buckets). تُمكّن هذه الطريقة نماذج اللغة الكبيرة من معالجة مدخلاتها عبر عمليات متعددة متوازية. وكل عملية تستخدم زاوية أساسية مختلفة لتمثيل الموضع الدوراني (rotary position embedding)، مما يؤدي إلى إنشاء موجة انتباه فريدة لكل عملية. وباستخدام ذروة انتباه إحدى العمليات لتعويض الوادي في عملية أخرى، يُحسَّن وعي النموذج بمختلف المواقع السياقية، وبالتالي يُقلّل من خطر تجاهل المعلومات الحيوية. وفي أكبر معيار لاختبار استخدام الأدوات، رفعنا أداء نموذج بحجم 7B إلى مستوى يُعدّ من أفضل المستويات الحالية، مُقارنةً بأداء GPT-4. كما أظهرت الطريقة تحسينات ملحوظة في الأداء على معايير أخرى، بالإضافة إلى بعض مهام RAG التي تتطلب فهمًا عميقًا للمحتوى السياقي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp