HyperAIHyperAI

Command Palette

Search for a command to run...

MonoScene: إكمال المشهد الدلالي ثلاثي الأبعاد من خلال الكاميرا أحادية العدسة

Anh-Quan Cao Raoul de Charette

الملخص

يقترح MonoScene إطارًا للإكمال الصرفي ثلاثي الأبعاد (SSC) حيث يتم استنتاج الهندسة الكثيفة ومعاني المشهد من صورة واحدة أحادية اللون (RGB). على عكس أدبيات SSC التي تعتمد على المدخلات ثنائية ونصف البعد أو ثلاثية الأبعاد، نحن نحل مشكلة معقدة تتمثل في إعادة بناء المشهد من二维到三维,同时推断其语义。我们的框架依赖于连续的2D和3D U-Nets,通过一种受光学启发的新颖2D-3D特征投影方法连接它们,并引入3D上下文关系先验以强制执行空间-语义一致性。除了架构上的贡献外,我们还引入了新的全局场景损失和局部圆锥体损失。实验表明,我们在所有指标和数据集上都优于文献中的方法,即使在相机视场之外也能生成合理的场景。我们的代码和训练模型可在 https://github.com/cv-rits/MonoScene 获取。请注意,以下是经过优化后的阿拉伯语翻译:MonoScene يقترح إطارًا لاستكمال المشهد الصرفي ثلاثي الأبعاد (SSC)، حيث يتم استنتاج الهندسة الكثيفة ومعاني المشهد من صورة واحدة أحادية العين (RGB). بخلاف الأدبيات المتعلقة بـ SSC والتي تعتمد على مدخلات ثنائية ونصف البعد أو ثلاثية الأبعاد، فإننا نحل المشكلة المعقدة لإعادة بناء المشهد من البعد الثاني إلى البعد الثالث مع الاستدلال المشترك عن معانيه. يعتمد إطارنا على شبكات U-Nets ثنائية وثلاثية الأبعاد متتابعة، متصلة بواسطة طريقة جديدة لتقديم الخصائص من البعد الثاني إلى البعد الثالث مستوحاة من علم البصريات، ويُدخل خلفية علاقات السياق الثلاثي الأبعاد لفرض التوافق الفضائي-الصرفي. بالإضافة إلى المساهمات المعمارية، فقد قدمنا خسائر جديدة للمشهد العالمي والمخروطيات المحلية. تظهر التجارب أننا نتفوق على الأدبيات في جميع المقاييس والمجموعات البيانات، بينما نولد مشاهد معقولة حتى خارج مجال رؤية الكاميرا. يمكن الحصول على شفرتنا البرمجية والنموذج المدرَّب من https://github.com/cv-rits/MonoScene.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp