HyperAIHyperAI
منذ شهر واحد

توسيع حدود الانسحاب

Gábor Melis; Charles Blundell; Tomáš Kočiský; Karl Moritz Hermann; Chris Dyer; Phil Blunsom
توسيع حدود الانسحاب
الملخص

نظهر أن تدريب الإسقاط (dropout) يمكن فهمه بشكل أفضل على أنه يقوم بتقدير القيمة الأقصى للاحتمال (MAP) بشكل متزامن لمجموعة من النماذج الشرطية التي تكون أهدافها نفسها مقيدة بحد أدنى بواسطة الهدف الأصلي للإسقاط. هذا الاكتشاف يتيح لنا اختيار أي نموذج من هذه المجموعة بعد التدريب، مما يؤدي إلى تحسين كبير في نمذجة اللغة ذات التنظيم الشديد. تشمل هذه المجموعة نماذج تقوم بحساب الوسط الحسابي للقوى على الأقنعة المُسقَطة، وأصنافها الفرعية الأقل عشوائية والتي لديها حدود سفلية أكثر دقة وأعلى من الهدف العشوائي الكامل للإسقاط. نحاجج بأن بما أن حد النموذج الدeterministic subvariant مساوٍ لأهدافه، وأنه الأعلى بين هذه النماذج، فإن الرأي السائد بأنه تقريب جيد للمتوسط العشوائي المتعدد (MC averaging) هو مضلِّل. بدلاً من ذلك، الإسقاط الدeterministic هو أفضل التقريبات المتاحة للأهداف الحقيقية.

توسيع حدود الانسحاب | أحدث الأوراق البحثية | HyperAI