HyperAIHyperAI
منذ 3 أيام

الخطوة التالية-1: نحو توليد صور ذاتية التكرار باستخدام الرموز المستمرة على نطاق واسع

NextStep Team, Chunrui Han, Guopeng Li, Jingwei Wu, Quan Sun, Yan Cai, Yuang Peng, Zheng Ge, Deyu Zhou, Haomiao Tang, Hongyu Zhou, Kenkun Liu, Ailin Huang, Bin Wang, Changxin Miao, Deshan Sun, En Yu, Fukun Yin, Gang Yu, Hao Nie, Haoran Lv, Hanpeng Hu, Jia Wang, Jian Zhou, Jianjian Sun, Kaijun Tan, Kang An, Kangheng Lin, Liang Zhao, Mei Chen, Peng Xing, Rui Wang, Shiyu Liu, Shutao Xia, Tianhao You, Wei Ji, Xianfang Zeng, Xin Han, Xuelin Zhang, Yana Wei, Yanming Xu, Yimin Jiang, Yingming Wang, Yu Zhou, Yucheng Han, Ziyang Meng, Binxing Jiao, Daxin Jiang, Xiangyu Zhang, Yibo Zhu
الخطوة التالية-1: نحو توليد صور ذاتية التكرار باستخدام الرموز المستمرة على نطاق واسع
الملخص

تعتمد النماذج المُتَّسِمة السائدة (AR) لتحويل النص إلى صورة إما على نماذج انتشار معقدة ومرهقة من الناحية الحسابية لمعالجة رموز الصور المستمرة، أو تستخدم التكميم المتجهي (VQ) للحصول على رموز منفصلة بخسارة في التكميم. في هذه الورقة، نُقدِّم تقدُّمًا جديدًا في نموذج التسلسل التلقائي من خلال نموذج NextStep-1، وهو نموذج مُتَّسِم بحجم 14 مليار معلمة، مُقترَن بنموذج تطابق التدفقات (flow matching) بحجم 157 مليون معلمة، يتم تدريبه على رموز نصية منفصلة ورموز صور مستمرة باستخدام أهداف التنبؤ بالرمز التالي. ويُظهر نموذج NextStep-1 أداءً متفوقًا على الأداء الراهن (state-of-the-art) بين النماذج المُتَّسِمة في مهام تحويل النص إلى صورة، مع تميُّزه في توليد صور عالية الوضوح والدقة. علاوة على ذلك، تُظهر طريقة عملنا أداءً قويًا في تعديل الصور، مما يبرز القوة والتنوع في نهجنا الموحّد. ولتشجيع الأبحاث المفتوحة، سنُطلق كودنا ونماذجنا للجمهور.

الخطوة التالية-1: نحو توليد صور ذاتية التكرار باستخدام الرموز المستمرة على نطاق واسع | أحدث الأوراق البحثية | HyperAI