HyperAIHyperAI
منذ 2 أشهر

شبكة الانتباه المُعززة: هجين من الانتباه القاسي والناعم لنمذجة التسلسلات

Tao Shen; Tianyi Zhou; Guodong Long; Jing Jiang; Sen Wang; Chengqi Zhang
شبكة الانتباه المُعززة: هجين من الانتباه القاسي والناعم لنمذجة التسلسلات
الملخص

تقوم العديد من مهام معالجة اللغة الطبيعية بالاعتماد بشكل حصري على الارتباطات النادرة بين بعض الرموز في الجملة. تظهر آليات الانتباه اللينة أداءً واعداً في نمذجة الارتباطات المحلية/العالمية من خلال احتمالات لينة بين كل زوجين من الرموز، ولكنها ليست فعالة وكفوءة عند تطبيقها على الجمل الطويلة. بالمقابل، تقوم آليات الانتباه القاسية بتحديد مجموعة فرعية مباشرة من الرموز ولكنها صعبة وكفوءة للتدريب بسبب طبيعتها التوافقيّة. في هذا البحث، ندمج كلًا من الانتباه اللين والقاسي في نموذج واحد لدمج السياق يُسمى "الانتباه الذاتي المعزز (ReSA)" لتحقيق المنفعة المتبادلة بينهما. في ReSA، يقوم انتباه قاسي بتقليم التسلسل لمعالجة انتباه ذاتي لين، بينما يرسل الانتباه اللين إشارات مكافأة إلى الخلف لتسهيل تدريب الانتباه القاسي. لهذا الغرض، طورنا آلية انتباه قاسي جديدة تُسمى "عينة التسلسل المعززة (RSS)"، والتي تختار الرموز بالتوازي وتتدرب عبر التدرج السياسة. باستخدام وحدتين من RSS، يتمكن ReSA بكفاءة من استخراج الارتباطات النادرة بين كل زوج من الرموز المختارة. أخيراً، نقترح نموذج ترميز جمل خالي من RNN/CNN يُسمى "شبكة الانتباه الذاتي المعززة (ReSAN)"، والذي يعتمد فقط على ReSA. حقق هذا النموذج أفضل الأداء على كلا مجموعتي البيانات "ستانفورد للإدراك اللغوي الطبيعي (SNLI)" و"الجمل التي تتضمن المعرفة التركيبية (SICK)".