HyperAIHyperAI
منذ 2 أشهر

فهم المشهد الشامل التعاوني: توحيد تقدير الكائنات ثلاثية الأبعاد، والتصميم، وموضع الكاميرا

Siyuan Huang; Siyuan Qi; Yinxue Xiao; Yixin Zhu; Ying Nian Wu; Song-Chun Zhu
فهم المشهد الشامل التعاوني: توحيد تقدير الكائنات ثلاثية الأبعاد، والتصميم، وموضع الكاميرا
الملخص

فهم المشهد الداخلي الشامل ثلاثي الأبعاد يشير إلى استعادة i) صناديق تحديد الكائنات، ii) تخطيط الغرفة، وiii) وضعية الكاميرا، كلها في ثلاثة أبعاد. الطرق الحالية إما تكون غير فعالة أو تعالج المشكلة جزئيًا فقط. في هذا البحث، نقترح نموذجًا متكاملًا يحل جميع هذه المهام الثلاثة بشكل متزامن وفي الوقت الحقيقي باستخدام صورة RGB واحدة فقط. جوهر الطريقة المقترحة هو تحسين التنبؤ من خلال i) معاملة الأهداف (مثل الصناديق ثلاثية الأبعاد) بدلاً من تقديرها مباشرة، وii) التدريب التعاوني عبر الوحدات المختلفة بدلًا من تدريب هذه الوحدات بشكل منفصل. تحديداً، نقوم بمعاملة صناديق تحديد الكائنات ثلاثية الأبعاد بناءً على التوقعات من عدة وحدات، أي وضعية الكاميرا ثلاثية الأبعاد وخصائص الكائنات. توفر الطريقة المقترحة ميزتين رئيسيتين: i) تساعد المعالجة على الحفاظ على التناسق بين الصورة ثنائية الأبعاد والعالم ثلاثي الأبعاد، مما يقلل بشكل كبير من الاختلافات في التوقعات للإحداثيات ثلاثية الأبعاد. ii) يمكن فرض قيود على المعالجة لتدريب الوحدات المختلفة بشكل متزامن. نطلق على هذه القيود "خسائر تعاونية" لأنها تمكّن التدريب والاستدلال المشترك. نستخدم ثلاثة خسائر تعاونية لصناديق تحديد ثلاثية الأبعاد، والتصاوير ثنائية الأبعاد، والقيود الفيزيائية لتقدير مشهد ثلاثي أبعاد متناسق هندسياً ومعقول فيزيائياً. أظهرت التجارب على مجموعة بيانات SUN RGB-D أن الطريقة المقترحة تتفوق بشكل كبير على الأساليب السابقة في اكتشاف الكائنات ثلاثية الأبعاد، وتخطيط الغرفة ثلاثي الأبعاد، وتقدير وضعية الكاميرا ثلاثية الأبعاض، وفهم المشهد الشامل.请注意,这里有一些术语在阿拉伯语中可能没有完全对应的词汇,因此我保留了部分英文术语以确保准确性,例如“cooperative losses”(خسائر تعاونية)。如果需要进一步本地化的术语,请告知。

فهم المشهد الشامل التعاوني: توحيد تقدير الكائنات ثلاثية الأبعاد، والتصميم، وموضع الكاميرا | أحدث الأوراق البحثية | HyperAI