HyperAIHyperAI
منذ 2 أشهر

الانتشار المُزاح لتحويل النص إلى صورة

Yufan Zhou; Bingchen Liu; Yizhe Zhu; Xiao Yang; Changyou Chen; Jinhui Xu
الانتشار المُزاح لتحويل النص إلى صورة
الملخص

نقدم لكم "كورجي" (Corgi)، وهو طريقة جديدة لإنشاء الصور من النصوص. يعتمد كورجي على نموذج الانتشار المزحزح الذي اقترحناه، والذي يحقق توليدًا أفضل لتمثيلات الصور من النصوص الإدخال. على عكس نموذج الانتشار الأساسي المستخدم في DALL-E 2، فإن طريقتنا تقوم بدمج المعرفة السابقة لنموذج CLIP المدرب مسبقًا في عملية الانتشار بشكل سلس من خلال تصميم توزيع جديد للبداية وخطوة انتقالية جديدة للانتشار. مقارنة بنموذج DALL-E 2 القوي، أثبتت طريقتنا أنها أفضل في توليد تمثيلات الصور من النصوص من حيث الكفاءة والفعالية، مما يؤدي إلى إنشاء صور أفضل من النصوص. تم إجراء وتقييم تجارب واسعة النطاق على نطاق كبير من حيث المقاييس الكمية وتقييم البشر، مما يشير إلى قدرة أكبر على التوليد لدى طريقتنا مقارنة بالطرق الحالية. بالإضافة إلى ذلك، يمكن لنموذجنا أن يقوم بتدريب شبه مراقب وغير معتمد على اللغة لإنشاء الصور من النصوص، حيث يمكن أن تكون جزءًا فقط أو لا يوجد أي صورة في مجموعة البيانات التدريبية مرتبطة بعنوان. عند التدريب باستخدام 1.7٪ فقط من الصور التي تحتوي على عناوين، حقق نموذجنا شبه المراقب نتائج FID مشابهة لتلك التي حققها DALL-E 2 في إنشاء الصور من النصوص دون الحاجة إلى تعلم سابق (zero-shot) عند تقييمه على MS-COCO. كما حقق كورجي نتائج جديدة رائدة في مختلف المجموعات的数据集上,在无需语言的文本到图像生成任务中,超越了先前的方法Lafite,取得了显著的进步。注:最后一句中的“的数据集上”为中文,可能是原文档中的错误。根据上下文,我将其翻译为“في مختلف المجموعات البيانات”,以保持句子的连贯性和完整性。完整的翻译如下:كما حقق كورجي نتائج جديدة رائدة في مختلف مجموعات البيانات في مهام إنشاء الصور من النصوص دون الحاجة إلى اللغة، متفوقًا بشكل كبير على الطريقة السابقة لافيت (Lafite).

الانتشار المُزاح لتحويل النص إلى صورة | أحدث الأوراق البحثية | HyperAI