HyperAIHyperAI

Command Palette

Search for a command to run...

LangScene-X: إعادة بناء مشاهد لغوية مدمجة ثلاثية الأبعاد قابلة للتعميم باستخدام TriMap فيديو التفتيت

Fangfu Liu Hao Li Jiawei Chi Hanyang Wang Minghui Yang Fudong Wang Yueqi Duan

الملخص

استعادة الهياكل ثلاثية الأبعاد مع فهم مشهد مفتوح المفردات من الصور ثنائية الأبعاد هي مهمة أساسية ولكنها صعبة. وقد حققت التطورات الحديثة هذا الهدف من خلال أداء التحسين لكل مشهد باستخدام المعلومات اللغوية المدمجة. ومع ذلك، فإن هذه الأساليب تعتمد بشكل كبير على نموذج إعادة الإنشاء الكثيف المرتبط بالضبط، مما يجعلها تعاني من تشوهات عرض شديدة وتركيب دلالي غير مرجوح عند توفر عدد قليل من الزوايا البصرية. في هذا البحث، نقدم إطارًا توليديًا جديدًا، أطلقنا عليه اسم LangScene-X، لتوحيد وتوليد معلومات متعددة الوسائط متسقة ثلاثيًا لإعادة الإنشاء والفهم. بفضل قدرة الإطار التوليدي على إنشاء ملاحظات جديدة أكثر اتساقًا، يمكننا بناء مشاهد ثلاثية الأبعاد قابلة للتعميم تحتوي على معلومات لغوية من زوايا بصرية نادرة فقط. تحديدًا، نقوم أولًا بتدريب نموذج توزيع الفيديو TriMap الذي يمكنه توليد المظهر (القيم RGB)، الهندسة (المتجهات الطبيعية)، والدلالة (خرائط التقسيم) من إدخالات نادرة عبر دمج المعرفة التدريجي. بالإضافة إلى ذلك، نقترح ضاغط كمي لغوي (LQC) تم تدريبه على مجموعات بيانات صورية كبيرة الحجم لتشفير المعلومات اللغوية بكفاءة، مما يمكّن التعميم بين المشاهد دون الحاجة إلى إعادة تدريب كل مشهد. وأخيرًا، نعيد بناء حقول السطح اللغوي عن طريق تنسيق المعلومات اللغوية مع سطح المشاهد الثلاثية الأبعاد، مما يتيح الاستفسارات اللغوية بلا حدود. تثبت التجارب الواسعة على البيانات الواقعية تفوق LangScene-X على أفضل الأساليب الحالية فيما يتعلق بالجودة والتعميم.صفحة المشروع: https://liuff19.github.io/LangScene-X.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp