HyperAIHyperAI
منذ 11 أيام

ImGeoNet: تمثيل مكاني مُدرَّس بالهندسة مستمد من الصورة للكشف عن الأجرام ثلاثية الأبعاد متعددة الزوايا

Tao Tu, Shun-Po Chuang, Yu-Lun Liu, Cheng Sun, Ke Zhang, Donna Roy, Cheng-Hao Kuo, Min Sun
ImGeoNet: تمثيل مكاني مُدرَّس بالهندسة مستمد من الصورة للكشف عن الأجرام ثلاثية الأبعاد متعددة الزوايا
الملخص

نُقدِّم ImGeoNet، وهي إطار عمل للكشف عن الكائنات ثلاثية الأبعاد المستند إلى الصور متعددة الزوايا، يُمثّل الفضاء ثلاثي الأبعاد من خلال تمثيل مكاني مُحَسّس بالهندسة مستمد من الصور. على عكس الطرق السابقة التي تجمّع الميزات ثنائية الأبعاد داخل مكعبات ثلاثية الأبعاد دون أخذ الهندسة بعين الاعتبار، تتعلم ImGeoNet استخلاص البنية الهندسية من الصور متعددة الزوايا لتقليل التباس الكتل الفارغة في الفضاء ثلاثي الأبعاد، كما أنّها تتطلب خلال مرحلة الاستدلال فقط صورًا من عدة زوايا. علاوةً على ذلك، يمكن للتمثيل المقترح الاستفادة من مُستخرج ميزات ثنائي الأبعاد مُدرّب مسبقًا وقوي، ما يؤدي إلى أداء أكثر موثوقية. لاختبار فعالية ImGeoNet، أجرينا تجارب كمية ونوعية على ثلاث مجموعات بيانات داخلية: ARKitScenes وScanNetV2 وScanNet200. أظهرت النتائج أن ImGeoNet تتفوّق على أحدث الطرق القائمة على الصور متعددة الزوايا، وهي ImVoxelNet، في جميع المجموعات الثلاث من حيث دقة الكشف. وبالإضافة إلى ذلك، تُظهر ImGeoNet كفاءة عالية في استخدام البيانات، حيث تحقّق نتائج مماثلة لـ ImVoxelNet عند استخدام 100 زاوية، ولكن باستخدام فقط 40 زاوية. علاوةً على ذلك، تشير دراساتنا إلى أن التمثيل الهندسي المستمد من الصور الذي نقترحه يمكنه تمكين الطرق القائمة على الصور من تحقيق دقة كشف أفضل من الطريقة الرائدة القائمة على السحابة النقطية، وهي VoteNet، في سيناريوهين عمليين: (1) السيناريوهات التي تكون فيها السحابة النقطية نادرة ومشوّشة، مثل حالة ARKitScenes، و(2) السيناريوهات التي تتضمّن فئات كائنات متنوعة، خصوصًا فئات الكائنات الصغيرة، كما هو الحال في ScanNet200.

ImGeoNet: تمثيل مكاني مُدرَّس بالهندسة مستمد من الصورة للكشف عن الأجرام ثلاثية الأبعاد متعددة الزوايا | أحدث الأوراق البحثية | HyperAI