Command Palette
Search for a command to run...
BP-Transformer: نمذجة السياق الطويل النطاق من خلال التقسيم الثنائي
BP-Transformer: نمذجة السياق الطويل النطاق من خلال التقسيم الثنائي
Zihao Ye Qipeng Guo Quan Gan Xipeng Qiu Zheng Zhang
الملخص
نموذج الترانسفورمر ناجح على نطاق واسع في العديد من مهام معالجة اللغة الطبيعية. ومع ذلك، فإن التعقيد التربيعي لآلية الانتباه الذاتي يحد من تطبيقه على النصوص الطويلة. في هذه الورقة، وباستخدام آلية انتباه من التفاصيل إلى العام على فترات متعددة المقاييس من خلال التقسيم الثنائي (BP)، نقترح نموذج BP-Transformer (يُختصر بـ BPT). يُنتج BPT O(k⋅nlog(n/k)) اتصالات، حيث يُعد k معاملًا خارجيًا يُستخدم للتحكم في كثافة الانتباه. يتميز BPT بتوازن جيد بين التعقيد الحسابي وقوة النموذج. وتشير سلسلة من التجارب على تصنيف النصوص، والترجمة الآلية، ونمذجة اللغة إلى أن BPT يتفوق على النماذج السابقة القائمة على الانتباه الذاتي في التعامل مع النصوص الطويلة. يُتاح كودنا، والمعاملات الخارجية، ونواة CUDA للانتباه النادر عبر مكتبة PyTorch.