HyperAI
منذ 12 أيام

π^3: تعلم الهندسة البصرية المتكافئ مع التباديل القابل للتوسع

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He
π^3: تعلم الهندسة البصرية المتكافئ مع التباديل القابل للتوسع
الملخص

نقدم pi^3، وهو شبكة عصبية ذات تغذية قدامية تقدم نهجًا جديدًا لإعادة بناء الهندسة البصرية، مما يكسر الاعتماد على وجهة النظر المرجعية الثابتة التقليدية. غالبًا ما تعتمد الأساليب السابقة على ربط إعادة البناء بوجهة نظر محددة، وهو تحيز استقرائي يمكن أن يؤدي إلى عدم الاستقرار والفشل إذا كانت الوجهة المرجعية غير مثلى. في المقابل، يستخدم pi^3 هندسة معمارية بالكامل قابلة للتغيير التبادلي لتنبؤ وضعيات الكاميرا الغير خطية والخرائط النقطية المحلية الغير متغيرة بالقياس دون أي إطار مرجعي. هذا التصميم يجعل نموذجنا مقاومًا بشكل جوهري لترتيب الإدخالات وقابل للتوسع بشكل كبير. هذه المزايا تمكن نهجنا البسيط وخالي من التحيز من تحقيق أداء يتفوق على أفضل الأداء الحالي في مجموعة واسعة من المهام، بما في ذلك تقدير وضعيات الكاميرا، تقدير العمق الأحادي/الفيديو، وإعادة بناء الخرائط النقطية الكثيفة. الرموز والنماذج متاحة للجمهور.注释:- "feed-forward neural network" 翻译为 "شبكة عصبية ذات تغذية قدامية"- "visual geometry reconstruction" 翻译为 "إعادة بناء الهندسة البصرية"- "permutation-equivariant architecture" 翻译为 "هندسة معمارية قابلة للتغيير التبادلي"- "affine-invariant camera poses" 翻译为 "وضعيات الكاميرا الغير خطية"- "scale-invariant local point maps" 翻译为 "الخرائط النقطية المحلية الغير متغيرة بالقياس"- "camera pose estimation" 翻译为 "تقدير وضعيات الكاميرا"- "monocular/video depth estimation" 翻译为 "تقدير العمق الأحادي/الفيديو"- "dense point map reconstruction" 翻译为 "إعادة بناء الخرائط النقطية الكثيفة"如有需要进一步调整或解释,请告知。