HyperAIHyperAI
منذ 2 أشهر

شبكات الاستدلال المتأخرة والانهيار اللاحق في المُشغِّلات التلقائية المتغيرة

Junxian He; Daniel Spokoyny; Graham Neubig; Taylor Berg-Kirkpatrick
شبكات الاستدلال المتأخرة والانهيار اللاحق في المُشغِّلات التلقائية المتغيرة
الملخص

الماكينة الترميزية المتغيرة (VAE) هي تركيبة شائعة بين نموذج متغير عمقي وتقنية تعلم متغيرة مصاحبة. من خلال استخدام شبكة استدلال عصبية لتقريب اللاحقة (posterior) للمتغيرات المخفية في النموذج، يتمكن الـ VAE من تكوين حد أدنى فعال على احتمالية البيانات الحاشية يمكن تحسينه مباشرة عبر طرق التدرج. ومع ذلك، في الممارسة العملية، غالبًا ما يؤدي تدريب الـ VAE إلى أمثل محلّي متدنٍ يُعرف بـ "انهيار اللاحقة" حيث يتعلم النموذج تجاهل المتغير المخفي واللاحقة التقريبية تحاكي الأولية (prior). في هذا البحث، ندرس انهيار اللاحقة من وجهة نظر ديناميات التدريب. نجد أن خلال المراحل الأولى من التدريب، تفشل شبكة الاستدلال في تقريب اللاحقة الحقيقية للنموذج، وهي هدف متحرك. نتيجة لذلك، يتم تشجيع النموذج على تجاهل الترميز الخفي ويحدث انهيار اللاحقة. بناءً على هذه الملاحظة، نقترح تعديلاً بسيطًا جدًا على تدريب الـ VAE لتقليل تأخر الاستدلال: اعتمادًا على المعلومات المتبادلة الحالية بين المتغير الخفي والملاحظة، نقوم بتحسين شبكة الاستدلال بشكل عدواني قبل كل تحديث للنموذج. رغم عدم إدخال أي مكونات جديدة أو تعقيد كبير فوق VAE الأساسية، فإن نهجنا قادر على تجنب مشكلة الانهيار التي أصابت كمية كبيرة من الأعمال السابقة. عمليًا، يتفوق نهجنا على القواعد الأساسية ذات الطابع الذاتي القوي في مقاييس النص والصور من حيث احتمالية البيانات المحتجزة، وهو تنافسي مع التقنيات الأكثر تعقيدًا لتجنب الانهيار بينما يكون أسرع بكثير.

شبكات الاستدلال المتأخرة والانهيار اللاحق في المُشغِّلات التلقائية المتغيرة | أحدث الأوراق البحثية | HyperAI