تحسين نماذج الترميز المتغير للنصوص باستخدام الالتفافات الموسعة

العمل الحديث في مجال نمذجة توليد النص قد أظهر أن الترميزات التباينية ذات المفككات LSTM (VAE) تؤدي بشكل أسوأ من نماذج اللغة LSTM البسيطة (Bowman et al., 2015). لم يتم فهم هذا النتيجة السلبية بشكل جيد حتى الآن، ولكن تم نسبها إلى ميل مفككات LSTM إلى تجاهل المعلومات المشروطة من المُشفر. في هذه الورقة البحثية، نجري تجارب باستخدام نوع جديد من المفكك لـ VAE: شبكة CNN الممتدة. عن طريق تغيير بنية التمديد للمفكك، نتحكم في السياق الفعال للكلمات التي تم إنشاؤها سابقًا. في التجارب، وجدنا أن هناك توازن بين قدرة المفكك على التعامل مع السياق ومقدار المعلومات المشفرة المستخدمة. أظهرنا أنه مع استخدام المفكك المناسب، يمكن للـ VAE أن يتفوق على نماذج اللغة LSTM. قدمنا مكاسب في درجة الحيرة (perplexity) على مجموعتين من البيانات، مما يمثل أول نتيجة تجريبية إيجابية لاستخدام الـ VAE في نمذجة توليد النص. علاوة على ذلك، أجرينا تحقيقًا دقيقًا في استخدام الـ VAE (مع بنية التشفير الجديدة لدينا) في مهام تصنيف شبه مراقب وغير مراقب، وأظهرنا مكاسب على عدة أسس قوية.