منذ 10 أيام

LangScene-X: إعادة بناء مشاهد لغوية مدمجة ثلاثية الأبعاد قابلة للتعميم باستخدام TriMap فيديو التفتيت

Fangfu Liu, Hao Li, Jiawei Chi, Hanyang Wang, Minghui Yang, Fudong Wang, Yueqi Duan

الملخص

استعادة الهياكل ثلاثية الأبعاد مع فهم مشهد مفتوح المفردات من الصور ثنائية الأبعاد هي مهمة أساسية ولكنها صعبة. وقد حققت التطورات الحديثة هذا الهدف من خلال أداء التحسين لكل مشهد باستخدام المعلومات اللغوية المدمجة. ومع ذلك، فإن هذه الأساليب تعتمد بشكل كبير على نموذج إعادة الإنشاء الكثيف المرتبط بالضبط، مما يجعلها تعاني من تشوهات عرض شديدة وتركيب دلالي غير مرجوح عند توفر عدد قليل من الزوايا البصرية. في هذا البحث، نقدم إطارًا توليديًا جديدًا، أطلقنا عليه اسم LangScene-X، لتوحيد وتوليد معلومات متعددة الوسائط متسقة ثلاثيًا لإعادة الإنشاء والفهم. بفضل قدرة الإطار التوليدي على إنشاء ملاحظات جديدة أكثر اتساقًا، يمكننا بناء مشاهد ثلاثية الأبعاد قابلة للتعميم تحتوي على معلومات لغوية من زوايا بصرية نادرة فقط. تحديدًا، نقوم أولًا بتدريب نموذج توزيع الفيديو TriMap الذي يمكنه توليد المظهر (القيم RGB)، الهندسة (المتجهات الطبيعية)، والدلالة (خرائط التقسيم) من إدخالات نادرة عبر دمج المعرفة التدريجي. بالإضافة إلى ذلك، نقترح ضاغط كمي لغوي (LQC) تم تدريبه على مجموعات بيانات صورية كبيرة الحجم لتشفير المعلومات اللغوية بكفاءة، مما يمكّن التعميم بين المشاهد دون الحاجة إلى إعادة تدريب كل مشهد. وأخيرًا، نعيد بناء حقول السطح اللغوي عن طريق تنسيق المعلومات اللغوية مع سطح المشاهد الثلاثية الأبعاد، مما يتيح الاستفسارات اللغوية بلا حدود. تثبت التجارب الواسعة على البيانات الواقعية تفوق LangScene-X على أفضل الأساليب الحالية فيما يتعلق بالجودة والتعميم.صفحة المشروع: https://liuff19.github.io/LangScene-X.