HyperAIHyperAI
منذ 17 أيام

تعزيز أقصر خشبة في الانتباه: تحسين وعي النموذج اللغوي الكبير بالسياق لاستخدام فعّال للأدوات

Yuhan Chen, Ang Lv, Ting-En Lin, Changyu Chen, Yuchuan Wu, Fei Huang, Yongbin Li, Rui Yan
تعزيز أقصر خشبة في الانتباه: تحسين وعي النموذج اللغوي الكبير بالسياق لاستخدام فعّال للأدوات
الملخص

في هذه الورقة، نُظهر أن نمطًا مُتأصِّلًا في موجة توزيع الانتباه في نماذج اللغة الكبيرة (LLMs) يؤثر بشكل كبير على أدائها في المهام التي تتطلب درجة عالية من الوعي بالسياق، مثل استخدام نماذج اللغة الكبيرة لأغراض الأدوات (tool-use). وبشكل خاص، قد يتم تجاهل المعلومات الحاسمة في السياق من قبل النموذج عند وقوعها في المنطقة المنخفضة (الوادي) لموجة الانتباه، مما يؤدي إلى تراجع الأداء. ولحل هذه المشكلة، نُقدِّم طريقة استنتاج جديدة تُسمَّى "صناديق الانتباه" (Attention Buckets). تُمكّن هذه الطريقة نماذج اللغة الكبيرة من معالجة مدخلاتها عبر عمليات متعددة متوازية. وكل عملية تستخدم زاوية أساسية مختلفة لتمثيل الموضع الدوراني (rotary position embedding)، مما يؤدي إلى إنشاء موجة انتباه فريدة لكل عملية. وباستخدام ذروة انتباه إحدى العمليات لتعويض الوادي في عملية أخرى، يُحسَّن وعي النموذج بمختلف المواقع السياقية، وبالتالي يُقلّل من خطر تجاهل المعلومات الحيوية. وفي أكبر معيار لاختبار استخدام الأدوات، رفعنا أداء نموذج بحجم 7B إلى مستوى يُعدّ من أفضل المستويات الحالية، مُقارنةً بأداء GPT-4. كما أظهرت الطريقة تحسينات ملحوظة في الأداء على معايير أخرى، بالإضافة إلى بعض مهام RAG التي تتطلب فهمًا عميقًا للمحتوى السياقي.

تعزيز أقصر خشبة في الانتباه: تحسين وعي النموذج اللغوي الكبير بالسياق لاستخدام فعّال للأدوات | أحدث الأوراق البحثية | HyperAI