مخططات الميزات القائمة على اللوحة متعددة المقاييس للتصنيف الصوري
أظهرت هياكل التعلم العميق نتائج متميزة في تصنيف الصور خلال السنوات الأخيرة. ومع ذلك، لا يزال تطبيق المعماريات المعقدة للشبكات العصبية على مجموعات بيانات صغيرة يمثل تحديًا. وفي هذا السياق، يُعد التعلم الناقل (Transfer Learning) من الأساليب الواعدة للتعامل مع هذه الحالة. بشكل عام، تعتمد المعماريات المُدرَّبة مسبقًا على مدخلات ثابتة قياسية، مما يستدعي عادةً إعادة تشكيل الصور وقصها أثناء مرحلة ما قبل المعالجة، ما يؤدي إلى فقدان المعلومات. علاوةً على ذلك، تظهر الصور في البيئات الواقعية خصائص بصرية على مقاييس مختلفة، ولا تأخذ معظم الأساليب الشائعة هذا الواقع بعين الاعتبار. في هذا البحث، نقترح منهجية تستخدم التعلم الناقل للتعامل مع مجموعات بيانات صغيرة، وتكثف الاستفادة من الخصائص البصرية المستخلصة من نماذج مُدرَّبة مسبقًا على مقاييس مختلفة. اعتمدنا في منهجيتنا على الشبكات التلافيفية الرسومية (Graph Convolutional Networks - GCN)، التي تأخذ رسومًا تمثل الصور على مقاييس مختلفة كمدخلات، حيث تكون العقد في هذه الرسوم مميزة بخصائص مستخرجة من نماذج مُدرَّبة مسبقًا من شرائح صور منتظمة على مقاييس مختلفة. وبما أن الشبكات التلافيفية الرسومية قادرة على التعامل مع الرسوم التي تختلف في عدد العقد، فإن منهجيتنا تستطيع التعامل بشكل طبيعي مع الصور ذات الأحجام غير الموحدة دون التضحية بالمعلومات ذات الصلة. تم تقييم منهجيتنا على مجموعتين بيانات: مجموعة من الصور الجيولوجية، ومجموعة بيانات مفتوحة المصدر، حيث تمثل كلا المجموعتين خصائص تشكل تحديًا أمام الأساليب التقليدية. وقد تم اختبار منهجيتنا باستخدام ثلاثة نماذج مُدرَّبة مسبقًا مختلفة كمستخرجات للخصائص: نموذجين فعّالين من الشبكات العصبية التلافيفية (DenseNet وResNeXt)، ونموذجًا واحدًا من نماذج المحولات البصرية (Vision Transformer) وهو CLIP. وتم مقارنة منهجيتنا بأسلوبين تقليديين لمعالجة تصنيف الصور. وأظهرت التجارب أن منهجيتنا تحقق نتائج أفضل من الأساليب التقليدية في هذا المهمة.