الإسقاط من أي إلى أي عبر التمايز القابل للتركيب

نقدّم نموذج التوليد القابل للتركيب (CoDi)، وهو نموذج توليد جديد قادر على إنتاج أي تركيبة من الأنواع المخرجة، مثل النص، والصورة، والفيديو، أو الصوت، من أي تركيبة من الأنواع المدخلة. على عكس النماذج الحالية للذكاء الاصطناعي التوليدي، يمكن لـ CoDi توليد عدة أنواع متعددة في نفس الوقت، ولا يقتصر مدخله على مجموعة محدودة من الأنواع مثل النص أو الصورة. وبالرغم من غياب بيانات تدريب لمعظم التركيبات الممكنة للأنواع، نقترح توحيد الأنواع في كل من الفضاء المدخل والفضاء المخرج. وهذا يمكّن CoDi من التكيّف بحرية مع أي تركيبة مدخلة، وتوليد أي مجموعة من الأنواع، حتى لو لم تكن موجودة في بيانات التدريب. يستخدم CoDi استراتيجية توليد جديدة قابلة للتركيب، تتضمن بناء فضاء متعدد الأنواع المشترك من خلال ربط التوافق أثناء عملية التشتت (diffusion)، مما يسمح بتوليد متزامن لأنواع متشابكة، مثل الفيديو والصوت المتماشيان زمنيًا. يتميز CoDi بالقدرة العالية على التخصيص والمرونة، ويحقق جودة عالية في التوليد المشترك بين الأنواع، ويتفوق أو يوازي الأفضل في التوليد الأحادي النوع (unimodal) للنماذج الحالية. يمكن الاطلاع على صفحة المشروع التي تحتوي على عروض توضيحية والكود من خلال الرابط: https://codi-gen.github.io