HyperAI
منذ يوم واحد

هونيوان وورلد 1.0: إنشاء عوالم ثلاثية الأبعاد غامرة وقابلة للاستكشاف والتفاعل من كلمات أو بكسلات

HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, Junta Wu, Zixiao Gu, Haoyuan Wang, Xuhui Zuo, et al
هونيوان وورلد 1.0: إنشاء عوالم ثلاثية الأبعاد غامرة وقابلة للاستكشاف والتفاعل من كلمات أو بكسلات
الملخص

يظل إنشاء عوالم ثلاثية الأبعاد غامرة وقابلة للعب من نصوص أو صور تحديًا أساسيًا في مجال الرؤية الحاسوبية والرسومات الحاسوبية. وتُصنف الطرق الحالية لبناء العوالم غالبًا إلى فئتين: الطرق القائمة على الفيديو التي تتميز بتنوع غني ولكنها تعاني من ضعف الاتساق ثلاثي الأبعاد وكفاءة العرض، والطرق القائمة على البيانات ثلاثية الأبعاد التي تضمن الاتساق الهندسي ولكنها تواجه صعوبات ناتجة عن قلة بيانات التدريب وتمثيلات غير فعّالة من حيث الذاكرة. وللتغلب على هذه القيود، نقدّم "هونيان وورلد 1.0" (HunyuanWorld 1.0)، وهي إطار عمل جديد يدمج أفضل ما في الطريقتين لبناء عوالم ثلاثية الأبعاد غامرة وقابلة للاستكشاف والتفاعل من شروط نصية أو صورية. يتميز نهجنا بثلاثة مزايا رئيسية: 1) تجارب غامرة بزاوية 360 درجة من خلال تمثيلات عالمية دائرية (world proxies)؛ 2) إمكانية تصدير الشبكات (mesh export) لضمان التوافق السلس مع أنظمة الرسومات الحاسوبية الحالية؛ 3) تمثيلات منفصلة للعناصر (disentangled object representations) لتعزيز التفاعل. ويتكون جوهر إطارنا من تمثيل ثلاثي الأبعاد مُدرجًا من حيث المعنى (semantically layered 3D mesh representation)، يستخدم الصور الدائرية كتمثيلات دائرية لعالم ثلاثي الأبعاد (360° world proxies) لتفكيك وبناء العالم بوعي معنوي، مما يمكّن من إنشاء عوالم ثلاثية الأبعاد متنوعة. وتُظهر التجارب الواسعة أن طريقتنا تحقق أداءً متقدمًا على مستوى الحالة الحالية (state-of-the-art) في إنشاء عوالم ثلاثية الأبعاد متماسكة وقابلة للاستكشاف والتفاعل، مع تمكين تطبيقات متنوعة في الواقع الافتراضي، والمحاكاة الفيزيائية، وتطوير الألعاب، وإنشاء المحتوى التفاعلي.