استخلاص البيانات لتوليد الصور من النصوص على مجموعات بيانات صغيرة

يتطلب إنشاء الصور من النص كمية كبيرة من البيانات التدريبية لتصنيع صور عالية الجودة. ولتعزيز بيانات التدريب، تعتمد الطرق السابقة على عمليات تداخل البيانات مثل التقليم، والانعكاس، والخلط، والتي تفشل في إدخال معلومات جديدة وتحصل على تحسينات طفيفة فقط. في هذه الورقة، نقترح طريقة جديدة لتعزيز البيانات لإنجاز إنشاء الصور من النص باستخدام الاستقراء الخطي. بشكل خاص، نطبق الاستقراء الخطي فقط على الميزات النصية، بينما تُسترجع بيانات الصور الجديدة من الإنترنت باستخدام محركات البحث. ولضمان موثوقية أزواج النص-الصورة الجديدة، قمنا بتصميم كاشفين للكشف عن القيم الشاذة لتنقية الصور المسترجعة. وباستخدام الاستقراء، نُنشئ عينات تدريبية تفوق حجم المجموعة الأصلية بعشرات المرات، مما يؤدي إلى تحسن كبير في أداء إنشاء الصور من النص. علاوةً على ذلك، نقترح دليلًا يُسمى NULL لتحسين تقدير الدرجات، ونطبق تحويلًا تآلفيًا متكررًا لدمج معلومات النص. تحقق نموذجنا من أداء متميز بمقاييس FID تبلغ 7.91 و9.52 و5.00 على مجموعات البيانات CUB وOxford وCOCO على التوالي. وسيكون الكود والبيانات متاحين على GitHub (https://github.com/senmaoy/RAT-Diffusion).