التفريق متعدد الوسائط للمواد

التعرف على المواد من خلال مظهرها البصري أمر ضروري لمهام رؤية الحاسوب، وخاصة تلك التي تتضمن تفاعلًا مع العالم الحقيقي. لا يزال التصنيف الدقيق للمواد، أي التعرف الكثيف على مستوى كل بكسل، يمثل تحديًا كبيرًا، لأن المواد لا تُظهر توقيعات بصرية واضحة في مظهرها العادي المُعَرَّف بـ RGB. ومع ذلك، فإن المواد المختلفة تؤدي إلى سلوكيات كهروضوئية مختلفة، والتي يمكن غالبًا التقاطها باستخدام وسائط تصوير غير RGB. نحن نحقق التصنيف المتعدد الوسائط للمواد باستخدام صور RGB، وصور الاستقطاب، والأشعة تحت الحمراء القريبة. ونقدم مجموعة بيانات تُسمى MCubeS (من MultiModal Material Segmentation)، التي تتضمن 500 مجموعة من الصور المتعددة الوسائط، تُصوِّر 42 مشهدًا شارعيًا. تم ترميز التصنيف الدقيق للمواد، وكذلك التصنيف الدلالي، لكل صورة وجميع البكسلات. كما نُطوّر شبكة عصبية عميقة جديدة تُسمى MCubeSNet، التي تتعلم التركيز على أزواج الوسائط الأكثر إفادة لكل فئة من فئات المواد، من خلال طبقة اختيار مرشحات موجهة بالمنطقة (RGFS) التي تم تطويرها حديثًا. ونستخدم التصنيف الدلالي كمعلومة أولية لتوجيه عملية اختيار المرشحات. إلى حد علمنا، فإن عملنا هو الدراسة الشاملة الأولى حول التصنيف الحقيقي المتعدد الوسائط للمواد. نعتقد أن هذا العمل يفتح آفاقًا جديدة لاستخدام معلومات المواد في التطبيقات الحساسة للأمان.