جاليب: نماذج توليدية مُعارضة لـ CLIP في التوليد الصوتي-الصوري

تُعد عملية توليد صور معقدة عالية الدقة من نصوص مُحددة تحديًا كبيرًا. ومع اعتماد النماذج ذات التدريب المسبق الكبير، تُظهر النماذج التوليدية التسلسلية (التي تعتمد على التوليد التسلسلي) والنموذج التباعدي (الذي يعتمد على التشتت) قدرة على إنتاج صور واقعية بدرجة عالية. وعلى الرغم من التقدم الملموس الذي أظهرته هذه النماذج الكبيرة، تظل هناك ثلاث نقاط ضعف رئيسية: 1) تتطلب هذه النماذج كميات هائلة من البيانات التدريبية والبارامترات لتحقيق أداء ممتاز. 2) يُبطئ التصميم المتعدد الخطوات للإنتاج عملية توليد الصور بشكل كبير. 3) يصعب التحكم في السمات البصرية المُولَّدة، مما يستدعي صياغة أوامر (برومبتات) دقيقة جدًا. ولتمكين توليد صور من النصوص بجودة عالية، وفعالية، وسرعة، وقابلية للتحكم، نُقدّم نموذجًا يُدعى GALIP، أي "نماذج CLIP التوليدية التنافسية" (Generative Adversarial CLIPs). يعتمد GALIP على نموذج CLIP المُدرّب مسبقًا بقوة في كلا المُحدّد (Discriminator) والمحوّل (Generator). بشكل خاص، نُقدّم مُحدّدًا مبنيًا على CLIP، حيث تمكّن قدرة CLIP على فهم المشاهد المعقدة المُحدّد من تقييم دقيق لجودة الصورة. علاوة على ذلك، نُقدّم مُحوّلًا مدعومًا بـ CLIP، يُستمد من خلاله المفاهيم البصرية من CLIP باستخدام سمات جسرية وأوامر (برومبتات). يعزز دمج CLIP في المُحوّل والمُحدّد كفاءة التدريب، وبالتالي فإن نموذجنا يحتاج فقط إلى حوالي 3% من بيانات التدريب و6% من البارامترات القابلة للتعلم، مع تحقيق نتائج مُقارنة بالنماذج الكبيرة المُدرّبة مسبقًا من نوع التوليد التسلسلي والتباعدي. علاوة على ذلك، يُحقّق نموذجنا سرعة توليد تفوق 120 مرة مقارنة بالنماذج السابقة، ويُرث الفضاء الخفي السلس المُميّز لشبكات التوليد التنافسية (GAN). تُظهر النتائج التجريبية الواسعة الأداء المتميز لنموذج GALIP. يُمكن الاطلاع على الكود عبر الرابط: https://github.com/tobran/GALIP.