النماذج المولدة من خلال التدفق الطبيعي قادرة على الإنتاج

التدفقات المُعَمَّمة (NFs) هي نماذج تعتمد على الاحتمالات لمدخلات مستمرة. أظهرت هذه النماذج نتائجًا واعدةً في مهام تقدير الكثافة والنمذجة التوليدية، لكنها حظيت باهتمام قليل نسبيًا في السنوات الأخيرة. في هذا البحث، نثبت أن التدفقات المُعَمَّمة أكثر قوة مما كان يُعتقد سابقًا. نقدم TarFlow: هيكل بسيط وقابل للتوسع يمكّن من إنشاء نماذج تدفق مُعَمَّمة ذات أداء عالي. يمكن اعتبار TarFlow كنسخة تعتمد على محولات (Transformers) من التدفقات الذاتية التتابعة المقنّعة (MAFs): يتكون من تراكم لكتل محولات ذاتية تتابعة تعمل على شرائح الصور، مع تبديل اتجاه الذاتية التتابعة بين الطبقات. يتم تدريب TarFlow بشكل مباشر ومن طرف إلى طرف، وهي قادرة على النمذجة المباشرة وإنتاج البكسلات. كما نقترح ثلاث تقنيات رئيسية لتحسين جودة العينات: زيادة الضوضاء الغاوسية أثناء التدريب، إجراء تنقية ما بعد التدريب، وطريقة توجيه فعالة لكلٍ من الإعدادات الشرطية وغير الشرطية للتصنيف. عند الجمع بين هذه التقنيات، يحدد TarFlow نتائجًا جديدة رائدة في تقدير الاحتمالات للصور، حيث يتفوق بكثير على أفضل الأساليب السابقة، وينتج عينات بجودة ومتنوعة مشابهة لنماذج الانتشار (Diffusion Models)، ولأول مرة باستخدام نموذج NF مستقل. نوفر رمزنا البرمجي في https://github.com/apple/ml-tarflow.