ضغط الترميزات الكلامية من خلال تعلم الرموز التكوينية العميقة

تتطلب نماذج معالجة اللغة الطبيعية (NLP) غالبًا عددًا ضخمًا من المعلمات لتمثيل الكلمات، مما يؤدي إلى استهلاك كبير للتخزين أو الذاكرة. عند نشر النماذج العصبية لمعالجة اللغة الطبيعية على الأجهزة المحمولة، يتعين علينا ضغط تمثيلات الكلمات دون التضحية بشكل كبير بالأداء. لهذا الغرض، نقترح بناء هذه التمثيلات باستخدام عدد قليل من المتجهات الأساسية. لكل كلمة، يتم تحديد تركيب المتجهات الأساسية بواسطة رمز تجزئة (hash code). لتحقيق أعلى معدل ضغط، نعتمد أسلوب التكميم متعدد الكتبة (multi-codebook quantization) بدلاً من نظام الترميز الثنائي. يتكون كل رمز من عدة أرقام متقطعة، مثل (3, 2, 1, 8)، حيث يتم تقييد قيمة كل مكون ضمن نطاق ثابت. نقترح تعلم الأكواد المتقطعة مباشرة في شبكة عصبية متكاملة باستخدام خدعة Gumbel-softmax. تظهر التجارب أن معدل الضغط يصل إلى 98% في مهمة تحليل المشاعر و94% ~ 99% في مهام الترجمة الآلية دون فقدان الأداء. في كلا المهمتين، يمكن للطريقة المقترحة تحسين أداء النموذج بخفض طفيف في معدل الضغط. بالمقارنة مع الأساليب الأخرى مثل تقسيم المستوى الحرف (character-level segmentation)، فإن الطريقة المقترحة مستقلة عن اللغة ولا تتطلب تعديلات في هيكل الشبكة العصبية.