الخطوة التالية-1: نحو توليد صور ذاتية التكرار باستخدام الرموز المستمرة على نطاق واسع

تعتمد النماذج المُتَّسِمة السائدة (AR) لتحويل النص إلى صورة إما على نماذج انتشار معقدة ومرهقة من الناحية الحسابية لمعالجة رموز الصور المستمرة، أو تستخدم التكميم المتجهي (VQ) للحصول على رموز منفصلة بخسارة في التكميم. في هذه الورقة، نُقدِّم تقدُّمًا جديدًا في نموذج التسلسل التلقائي من خلال نموذج NextStep-1، وهو نموذج مُتَّسِم بحجم 14 مليار معلمة، مُقترَن بنموذج تطابق التدفقات (flow matching) بحجم 157 مليون معلمة، يتم تدريبه على رموز نصية منفصلة ورموز صور مستمرة باستخدام أهداف التنبؤ بالرمز التالي. ويُظهر نموذج NextStep-1 أداءً متفوقًا على الأداء الراهن (state-of-the-art) بين النماذج المُتَّسِمة في مهام تحويل النص إلى صورة، مع تميُّزه في توليد صور عالية الوضوح والدقة. علاوة على ذلك، تُظهر طريقة عملنا أداءً قويًا في تعديل الصور، مما يبرز القوة والتنوع في نهجنا الموحّد. ولتشجيع الأبحاث المفتوحة، سنُطلق كودنا ونماذجنا للجمهور.