منذ 9 أيام

BP-Transformer: نمذجة السياق الطويل النطاق من خلال التقسيم الثنائي

Zihao Ye, Qipeng Guo, Quan Gan, Xipeng Qiu, Zheng Zhang

الملخص

نموذج الترانسفورمر ناجح على نطاق واسع في العديد من مهام معالجة اللغة الطبيعية. ومع ذلك، فإن التعقيد التربيعي لآلية الانتباه الذاتي يحد من تطبيقه على النصوص الطويلة. في هذه الورقة، وباستخدام آلية انتباه من التفاصيل إلى العام على فترات متعددة المقاييس من خلال التقسيم الثنائي (BP)، نقترح نموذج BP-Transformer (يُختصر بـ BPT). يُنتج BPT $O(k\cdot n\log (n/k))$ اتصالات، حيث يُعد $k$ معاملًا خارجيًا يُستخدم للتحكم في كثافة الانتباه. يتميز BPT بتوازن جيد بين التعقيد الحسابي وقوة النموذج. وتشير سلسلة من التجارب على تصنيف النصوص، والترجمة الآلية، ونمذجة اللغة إلى أن BPT يتفوق على النماذج السابقة القائمة على الانتباه الذاتي في التعامل مع النصوص الطويلة. يُتاح كودنا، والمعاملات الخارجية، ونواة CUDA للانتباه النادر عبر مكتبة PyTorch.