Chat-Edit-3D: تحرير المشاهد ثلاثية الأبعاد التفاعلي عبر تعليمات النص

العمل الأخير في مجال تعديل محتوى الصور بناءً على نماذج التدريب اللغوي-البصري قد تم توسيعه بفعالية إلى تعديل المشاهد ثلاثية الأبعاد بالنص. ومع ذلك، لا تزال الخطط الحالية لتعديل المشاهد ثلاثية الأبعاد تظهر بعض العيوب التي تحول دون تصميمها التفاعلي الأكثر تقدماً. فهذه الخطط عادة ما تتبع أنماطاً ثابتة للإدخال، مما يحد من مرونة المستخدمين في إدخال النصوص. بالإضافة إلى ذلك، فإن قدراتها على التعديل مقيدة بنموذج بصري ثنائي الأبعاد واحد أو عدد قليل منها، وتتطلب تصميماً معقداً للخطوات لدمج هذه النماذج في عمليات إعادة بناء المشهد ثلاثي الأبعاد. لمعالجة المشكلات المذكورة أعلاه، نقترح نهجاً لتعديل المشاهد ثلاثية الأبعاد يستند إلى الحوار ويُعرف باسم CE3D (Conversational 3D Scene Editing)، وهو يركز على نموذج لغوي كبير يسمح بإدخال النصوص بشكل عشوائي من قبل المستخدمين ويقوم بتفسير نواياهم، مما يسهل استدعاء النماذج البصرية المتخصصة بشكل مستقل. علاوة على ذلك، صممنا خطة تستخدم Hash-Atlas (هاش-أطلس) لتمثيل مشاهد ثلاثية الأبعاد، والتي تقوم بنقل تعديل المشاهد الثلاثية الأبعاد إلى صور أطلس ثنائية الأبعاد. هذا التصميم يحقق الفصل الكامل بين عملية التعديل ثنائية الأبعاد وعمليات إعادة البناء ثلاثية الأبعاد، مما يمكن CE3D من دمج مجموعة واسعة من النماذج البصرية ثنائية أو ثلاثية الأبعاد الموجودة دون الحاجة إلى تصاميم اندماج معقدة. تظهر النتائج التجريبية أن CE3D يدمج بشكل فعال عدة نماذج بصرية لتحقيق آثار بصرية متنوعة في التعديل، كما يتمتع بقدرة قوية على فهم المشهد وإجراء حوار متعدد الجولات. الرمز البرمجي متاح على الرابط التالي: https://sk-fun.fun/CE3D.