منذ 11 أيام

الانتباه الذاتي المُضاد لفهم اللغة

Hongqiu Wu, Ruixue Ding, Hai Zhao, Pengjun Xie, Fei Huang, Min Zhang

الملخص

النماذج العصبية العميقة (مثل نموذج Transformer) تتعلم بشكل طبيعي سمات اصطناعية، مما يُنشئ "طريقًا مختصرًا" بين التسميات والمدخلات، وبالتالي يُضعف القدرة على التعميم والثبات. تُقدّم هذه الورقة تطويرًا لآلية الانتباه الذاتي إلى نسخة أكثر متانة لنموذج اللغة المُدرّب مسبقًا المستند إلى Transformer (مثل BERT). نحن نقترح آلية الانتباه الذاتي العدواني (ASA)، التي تُبقي الانتباه بطرق عدوانية لقمع فعّال لاعتماد النموذج على ميزات محددة (مثل كلمات مفتاحية معينة) وتشجيعه على استكشاف معاني أوسع. قمنا بتقييم شامل عبر مجموعة واسعة من المهام في كل من مراحل التدريب المسبق والضبط الدقيق. في التدريب المسبق، أظهرت ASA تحسينات ملحوظة مقارنة بالتدريب البسيط عند استخدام خطوات أطول. وفي الضبط الدقيق، تفوق النماذج المدعومة بـ ASA على النماذج البسيطة بشكل كبير من حيث القدرة على التعميم والثبات.