الفراغات الكامنة الكروية للمساحات المستقرة في شبكات الترميز المتغيرية ذات الطبقات الذاتية

من المعالم البارزة لشبكات الترميز التباينية (VAEs) في معالجة النصوص هو الجمع بين نماذج الترميز-التفكيك القوية، مثل LSTM، والتوزيعات الكامنة البسيطة، عادةً ما تكون توزيعات غاوسية متعددة المتغيرات. تشكل هذه النماذج مشكلة أمثلة صعبة: هناك حدا أقصى محلي سيء للغاية حيث يساوي التوزيع الخلفي التبايني دائمًا التوزيع الأولي ولا يستخدم النموذج المتغير الكامن على الإطلاق، وهو نوع من "الانهيار" الذي تشجع عليه مصطلح الاختلاف Kullback-Leibler (KL) في الدالة الهدف. في هذا العمل، نجري تجارب باستخدام اختيار آخر للتوزيع الكامن، وهو توزيع von Mises-Fisher (vMF)، الذي يضع كتلة على سطح الفراغ الفائق الوحدوي. بفضل هذا الخيار للتوزيع الأولي والخلفي، أصبح المصطلح KL الآن يعتمد فقط على تباين توزيع vMF، مما يمنحنا القدرة على التعامل معه كمعلمة فائقة ثابتة. نوضح أن القيام بذلك ليس فقط يتجنب الانهيار KL، بل يقدم احتماليات أفضل بشكل مستمر من توزيعات غاوسية عبر مجموعة من ظروف النمذجة، بما في ذلك نمذجة اللغة المتكررة ونمذجة المستندات كأكياس كلمات. تحليل خصائص تمثيلات vMF الخاصة بنا يظهر أنها تتعلم هياكل أكثر غنى ودقة في تمثيلاتها الكامنة مقارنة بتلك التي تعتمد على توزيعات غاوسية.