DuLa-Net: شبكة ثنائية الإسقاط لتقدير تخطيطات الغرف من صورة بانورامية واحدة RGB

نقدم إطارًا للتعلم العميق يُسمى DuLa-Net، لتنبؤ تخطيطات الغرف ثلاثية الأبعاد في عالم مانهاتن من صورة بانورامية واحدة باللون والضوء (RGB). لتحقيق دقة أفضل في التنبؤ، يستخدم أسلوبنا اثنتين من الإسقاطات البانورامية في وقت واحد، وهما الإسقاط البانورامي المستطيل (equirectangular) والإسقاط السقف المنظوري (perspective ceiling)، حيث تحتوي كل منها على أدلة مختلفة حول تخطيطات الغرفة. يتكون هيكل شبكتنا من فرعين مرمزين ومرمزين مرة أخرى (encoder-decoder) لتحليل كل من الإسقاطين. بالإضافة إلى ذلك، تم اقتراح بنية جديدة للدمج المميز (feature fusion) لربط الفرعين، والتي يتم تدريبها بشكل مشترك لتنبؤ الخطط الأرضية ثنائية الأبعاد وأرتفاعات التخطيط. لتعلم تخطيطات الغرف الأكثر تعقيدًا، نقدم مجموعة بيانات Realtor360 التي تحتوي على صور بانورامية لتخطيطات الغرف في عالم مانهاتن مع أعداد مختلفة من الزوايا. تظهر النتائج التجريبية أن عملنا يتفوق على الدراسات الحديثة الرائدة في دقة التنبؤ والأداء، خاصة في الغرف ذات التخطيطات غير المكعبة.