HyperAIHyperAI
منذ 9 أيام

BP-Transformer: نمذجة السياق الطويل النطاق من خلال التقسيم الثنائي

Zihao Ye, Qipeng Guo, Quan Gan, Xipeng Qiu, Zheng Zhang
BP-Transformer: نمذجة السياق الطويل النطاق من خلال التقسيم الثنائي
الملخص

نموذج الترانسفورمر ناجح على نطاق واسع في العديد من مهام معالجة اللغة الطبيعية. ومع ذلك، فإن التعقيد التربيعي لآلية الانتباه الذاتي يحد من تطبيقه على النصوص الطويلة. في هذه الورقة، وباستخدام آلية انتباه من التفاصيل إلى العام على فترات متعددة المقاييس من خلال التقسيم الثنائي (BP)، نقترح نموذج BP-Transformer (يُختصر بـ BPT). يُنتج BPT $O(k\cdot n\log (n/k))$ اتصالات، حيث يُعد $k$ معاملًا خارجيًا يُستخدم للتحكم في كثافة الانتباه. يتميز BPT بتوازن جيد بين التعقيد الحسابي وقوة النموذج. وتشير سلسلة من التجارب على تصنيف النصوص، والترجمة الآلية، ونمذجة اللغة إلى أن BPT يتفوق على النماذج السابقة القائمة على الانتباه الذاتي في التعامل مع النصوص الطويلة. يُتاح كودنا، والمعاملات الخارجية، ونواة CUDA للانتباه النادر عبر مكتبة PyTorch.

BP-Transformer: نمذجة السياق الطويل النطاق من خلال التقسيم الثنائي | أحدث الأوراق البحثية | HyperAI