LAFITE: نحو التدريب الخالي من اللغة لتقنيات تحويل النص إلى صورة

من بين التحديات الرئيسية في تدريب نماذج التوليف المرئي من النص هو الحاجة إلى عدد كبير من الأزواج الصورية-النصية ذات الجودة العالية. بينما تكون عينات الصور غالبًا متاحة بسهولة، فإن الوصف النصي المصاحب يتطلب عادةً تسمية دقيقة من قبل البشر، وهو أمر يستهلك الكثير من الوقت والتكلفة. في هذا البحث، نقترح أول عمل لتدريب نماذج التوليف المرئي من النص دون استخدام أي بيانات نصية. تعتمد طريقتنا على الفضاء الدلالي متعدد الأوضاع المتناسق جيدًا لنموذج CLIP (النموذج المُعد مسبقًا القوي): يتم تخفيف متطلب التكييف النصي بسلاسة عبر إنتاج خصائص نصية من خصائص الصور. تم إجراء تجارب واسعة لبيان فعالية الطريقة المقترحة. حققنا نتائج رائدة في مهام التوليف المرئي القياسية من النص. وبشكل مهم، يتفوق النموذج الخالي من اللغة المقترح على معظم النماذج الموجودة التي تم تدريبها باستخدام أزواج صورية-نصية كاملة. بالإضافة إلى ذلك، يمكن تطبيق طرقتنا في ضبط نماذج مُعدة مسبقًا، مما يوفر وقت التدريب وتكاليفه عند تدريب نماذج التوليف المرئي من النص. حقق نموذجنا المُعد مسبقًا نتائج تنافسية في التوليف المرئي الصفر للنص على مجموعة بيانات MS-COCO، مع أن حجمه وحجم البيانات المستخدمة في تدريبه لا يتجاوزان 1% تقريبًا من حجم وأحجام البيانات الخاصة بنموذج DALL-E الكبير الذي اقترحته الدراسات الحديثة.