مطابقة التدفق في الفضاء المخفي

يُعدّ "مطابقة التدفق" (Flow Matching) إطارًا حديثًا لتدريب النماذج التوليدية، ويتميز بأداء تجريبي مبهر مقارنةً بالنماذج القائمة على الانتشار (diffusion-based)، مع سهولة أكبر في التدريب. وعلى الرغم من المزايا المتميزة التي يمتلكها، تواجه الطرق السابقة تحديات تتعلق بالتكاليف الحاسوبية العالية وتكرار تقييمات الدوال الكثيرة باستخدام حلول جاهزة في فضاء البكسل. علاوةً على ذلك، رغم النجاح الكبير الذي حققته النماذج التوليدية القائمة على الفضاءات الخفية (latent-based) في السنوات الأخيرة، ما زال هذا النوع من النماذج غير مُستكشف جيدًا في هذا المجال. في هذه الدراسة، نقترح تطبيق مطابقة التدفق في الفضاءات الخفية لمحولات الترميز المسبقة التدريب (pretrained autoencoders)، مما يُحسّن الكفاءة الحسابية والقابلية للتوسع في توليد صور عالية الدقة. ويُمكّن هذا من تدريب نماذج مطابقة التدفق على موارد حاسوبية محدودة مع الحفاظ على جودة الأداء ومرونته. وبالإضافة إلى ذلك، تمثل هذه الدراسة إسهامًا رائدًا في دمج مختلف الشروط داخل إطار مطابقة التدفق لمهام التوليد الشرطي، بما في ذلك توليد الصور المعتمدة على التسمية، واستكمال الصور (image inpainting)، وتوليد الصور من السياق المعنوي (semantic-to-image generation). من خلال تجارب واسعة النطاق، تُظهر النتائج الفعالية المتميزة لنهجنا من حيث الجوانب الكمية والكيفية على مجموعة متنوعة من مجموعات البيانات، مثل CelebA-HQ، FFHQ، LSUN Church & Bedroom، وImageNet. كما نقدم أيضًا تحليلًا نظريًا يتحكم في المسافة واسرستاين-2 (Wasserstein-2) بين توزيع التدفق الخفي المُعاد بناؤه وتوزيع البيانات الحقيقي، موضحين أن هذه المسافة محدودة من الأعلى بواسطة الهدف الأساسي لمطابقة التدفق في الفضاء الخفي. سيتم نشر الكود الخاص بنا على الرابط التالي: https://github.com/VinAIResearch/LFM.git.