التركيب المُشَكَّل للمناظر القائمة على اللغة باستخدام نموذج التفتيت متعدد الشروط

تُعدّ مُحاكاة المشهد مشكلةً صعبةً ذات تطبيقات صناعية متعددة. في الآونة الأخيرة، تم توجيه جهود كبيرة نحو محاكاة المشهد باستخدام الحركات البشرية أو تخطيطات الغرف أو الرسوم البيانية المكانية كمدخلات. ومع ذلك، فإن عدد الدراسات التي تناولت هذه المشكلة من منظور متعدد الوسائط، وخاصةً عبر دمج أوامر نصية، ما زال محدودًا. في هذه الورقة، نقترح مهمة جديدة لمحاكاة المشهد تُدار باللغة، وهي مهمة مبتكرة تدمج بين أوامر نصية، وحركات بشرية، والأجسام الموجودة مسبقًا لمحاكاة المشهد. على عكس مهام المحاكاة ذات الشرط الواحد الأخرى، فإن مشكلتنا تتضمن شروطًا متعددة، مما يتطلب استراتيجية لمعالجة وتمثيل هذه الشروط في فضاء موحد. ولحل هذه التحديات، نقدّم نموذجًا تبادليًا متعدد الشروط، والذي يختلف عن النهج الضمني للتوحيد المتبَّع في الأدبيات التبادلية الأخرى من خلال التنبؤ بشكل صريح بنقاط التوجيه الخاصة بتوزيع البيانات الأصلي. ونُظهر أن منهجنا مدعوم نظريًا. كما تُظهر نتائج التجارب المكثفة أن طريقةنا تتفوق على أحدث النماذج المعيارية، وتمكّن من تطبيقات طبيعية لتعديل المشاهد. يمكن الوصول إلى الشفرة المصدرية والبيانات من خلال الرابط: https://lang-scene-synth.github.io/.