HyperAIHyperAI
منذ 18 أيام

التركيب المُشَكَّل للمناظر القائمة على اللغة باستخدام نموذج التفتيت متعدد الشروط

{Anh Nguyen, Thieu Vo, Dzung Nguyen, Baoru Huang, Toan Tien Nguyen, Minh Nhat Vu, An Vuong}
التركيب المُشَكَّل للمناظر القائمة على اللغة باستخدام نموذج التفتيت متعدد الشروط
الملخص

تُعدّ مُحاكاة المشهد مشكلةً صعبةً ذات تطبيقات صناعية متعددة. في الآونة الأخيرة، تم توجيه جهود كبيرة نحو محاكاة المشهد باستخدام الحركات البشرية أو تخطيطات الغرف أو الرسوم البيانية المكانية كمدخلات. ومع ذلك، فإن عدد الدراسات التي تناولت هذه المشكلة من منظور متعدد الوسائط، وخاصةً عبر دمج أوامر نصية، ما زال محدودًا. في هذه الورقة، نقترح مهمة جديدة لمحاكاة المشهد تُدار باللغة، وهي مهمة مبتكرة تدمج بين أوامر نصية، وحركات بشرية، والأجسام الموجودة مسبقًا لمحاكاة المشهد. على عكس مهام المحاكاة ذات الشرط الواحد الأخرى، فإن مشكلتنا تتضمن شروطًا متعددة، مما يتطلب استراتيجية لمعالجة وتمثيل هذه الشروط في فضاء موحد. ولحل هذه التحديات، نقدّم نموذجًا تبادليًا متعدد الشروط، والذي يختلف عن النهج الضمني للتوحيد المتبَّع في الأدبيات التبادلية الأخرى من خلال التنبؤ بشكل صريح بنقاط التوجيه الخاصة بتوزيع البيانات الأصلي. ونُظهر أن منهجنا مدعوم نظريًا. كما تُظهر نتائج التجارب المكثفة أن طريقةنا تتفوق على أحدث النماذج المعيارية، وتمكّن من تطبيقات طبيعية لتعديل المشاهد. يمكن الوصول إلى الشفرة المصدرية والبيانات من خلال الرابط: https://lang-scene-synth.github.io/.