Command Palette
Search for a command to run...
الشبكات العصبية التلافيفية متعددة المقاطع للتمييز عن الأشكال ثلاثية الأبعاد
الشبكات العصبية التلافيفية متعددة المقاطع للتمييز عن الأشكال ثلاثية الأبعاد
Su Hang Maji Subhransu Kalogerakis Evangelos Learned-Miller Erik
الملخص
تساؤلٌ قديم في مجال الرؤية الحاسوبية يتناول تمثيل الأشكال ثلاثية الأبعاد للتمييز بينها: هل ينبغي تمثيل الأشكال ثلاثية الأبعاد باستخدام وصوف (Descriptors) تعمل مباشرة على صيغها الأصلية ثلاثية الأبعاد، مثل الشبكة المكعبية (Voxel Grid) أو الشبكة المضلعية (Polygon Mesh)، أم يمكن تمثيلها بشكل فعّال باستخدام وصوف تعتمد على الرؤى (View-based Descriptors)؟ نتناول هذا السؤال في سياق تعلُّم تمييز الأشكال ثلاثية الأبعاد من خلال مجموعة من الرؤى المرسومة لها على صور ثنائية الأبعاد. نقدّم أولًا معمارية شبكة عصبية تلافيفية قياسية (CNN) تم تدريبها على تمييز رؤى الأشكال الثلاثية الأبعاد بشكل مستقل عن بعضها البعض، ونُظهر أن شكلًا ثلاثي الأبعاد يمكن تمييزه حتى من خلال رؤية واحدة فقط، وبدقة أعلى بكثير من استخدام أحدث الوصوف ثلاثية الأبعاد. ويزداد معدل التمييز بشكل ملحوظ عند توفر عدة رؤى للشكل نفسه. علاوةً على ذلك، نقدّم معمارية CNN جديدة تُدمج المعلومات المستمدة من عدة رؤى لشكل ثلاثي الأبعاد في وصوف شكل موحّدة ومتراصة، تُقدّم أداءً أفضل في التمييز. ويمكن تطبيق نفس المعمارية بدقة لتمييز الرسومات اليدوية للأشكال التي يرسمها البشر. نستنتج أن مجموعة من الرؤى ثنائية الأبعاد يمكن أن تكون ذات معلومات غنية جدًا لتمييز الأشكال ثلاثية الأبعاد، وأنها تتماشى مع المعماريّات الحديثة للشبكات العصبية التلافيفية ومشتقاتها.