SentenceMIM: نموذج لغوي متغير خفي

SentenceMIM هو مشفر تلقائي احتمالي للبيانات اللغوية، تم تدريبه باستخدام تعلم آلة المعلومات التبادلية (MIM) لتقديم تمثيل بطول ثابت للمراسلات اللغوية ذات الطول المتغير (أي ما يشبه VAE). واجهت المحاولات السابقة لتعلم نماذج VAE للبيانات اللغوية صعوبات ناتجة عن ظاهرة "انهيار التوزيع اللاحق" (posterior collapse). أما تعلم MIM فيشجع على ارتفاع المعلومات التبادلية بين الملاحظات والمتغيرات المخفية، ويكون مقاومًا لظاهرة انهيار التوزيع اللاحق. ونتيجة لذلك، يتعلم تمثيلات مفيدة يمكن أن تكون أبعادها أعلى بمرتبة من القيم الحالية في نماذج VAE اللغوية. وبشكل مهم، فإن خسارة SentenceMIM لا تحتوي على أي معاملات قابلة للضبط (hyper-parameters)، مما يبسط عملية التحسين. قارنا بين SentenceMIM وVAE وAE على عدة مجموعات بيانات. أظهر SentenceMIM أداءً ممتازًا في إعادة البناء، مماثل لأداء AE، مع فضاء مخفي منظم وغني، مماثل لـ VAE. وقد أُثبتت طبيعة الفضاء المخفي المنظم من خلال التداخل بين جمل ذات أطوال مختلفة. كما أظهرنا مرونة SentenceMIM من خلال استخدام نموذج مدرب لمهام إجابة الأسئلة والتعلم الناقل (transfer learning) دون الحاجة إلى التخصيص (fine-tuning)، حيث تفوق على VAE وAE ذات الهياكل المشابهة.