HyperAIHyperAI
منذ 2 أشهر

تحسين نماذج الترميز المتغير للنصوص باستخدام الالتفافات الموسعة

Zichao Yang; Zhiting Hu; Ruslan Salakhutdinov; Taylor Berg-Kirkpatrick
تحسين نماذج الترميز المتغير للنصوص باستخدام الالتفافات الموسعة
الملخص

العمل الحديث في مجال نمذجة توليد النص قد أظهر أن الترميزات التباينية ذات المفككات LSTM (VAE) تؤدي بشكل أسوأ من نماذج اللغة LSTM البسيطة (Bowman et al., 2015). لم يتم فهم هذا النتيجة السلبية بشكل جيد حتى الآن، ولكن تم نسبها إلى ميل مفككات LSTM إلى تجاهل المعلومات المشروطة من المُشفر. في هذه الورقة البحثية، نجري تجارب باستخدام نوع جديد من المفكك لـ VAE: شبكة CNN الممتدة. عن طريق تغيير بنية التمديد للمفكك، نتحكم في السياق الفعال للكلمات التي تم إنشاؤها سابقًا. في التجارب، وجدنا أن هناك توازن بين قدرة المفكك على التعامل مع السياق ومقدار المعلومات المشفرة المستخدمة. أظهرنا أنه مع استخدام المفكك المناسب، يمكن للـ VAE أن يتفوق على نماذج اللغة LSTM. قدمنا مكاسب في درجة الحيرة (perplexity) على مجموعتين من البيانات، مما يمثل أول نتيجة تجريبية إيجابية لاستخدام الـ VAE في نمذجة توليد النص. علاوة على ذلك، أجرينا تحقيقًا دقيقًا في استخدام الـ VAE (مع بنية التشفير الجديدة لدينا) في مهام تصنيف شبه مراقب وغير مراقب، وأظهرنا مكاسب على عدة أسس قوية.