تمهيد تمثيلات الصوت التنفسي باستخدام البيانات الوصفية والتعلم المقابل

تمثل الطرق القائمة على التعلم المراقب باستخدام التسميات بشكل متكامل من الطرف إلى الطرف (end-to-end) الحد الأقصى من التطور في مسائل التصنيف. ومع ذلك، قد تكون محدودة من حيث قدرتها على التعميم، خصوصًا في ظل ظروف نقص البيانات. في هذه الدراسة، نعالج هذه المشكلة باستخدام التعلم المتناهي المراقب (supervised contrastive learning) المدمج مع المعلومات الوصفية المتاحة (metadata) لحل مهام مسبقة متعددة (pretext tasks)، بهدف تعلّم تمثيل فعّال للبيانات. ونطبّق نهجنا على تصنيف الأصوات التنفسية، وهو مجال مناسب لهذا الإطار نظرًا لارتباط المعلومات الديموغرافية مثل الجنس والسن بوجود أمراض الرئة، وتعلم نظام يُشَكِّل هذه المعلومات ضمنيًا قد يُحسّن كشف التشوهات. يُعد التعلم المتناهي المراقب نموذجًا يتعلم تمثيلات متشابهة للعينات التي تملك نفس التصنيف، وتمثيلات مختلفة للعينات ذات التصنيفات المختلفة. ويستخرج المحول المميز (feature extractor) الذي يُتعلم باستخدام هذا النموذج ميزات مفيدة من البيانات، ونُظهر أنه يتفوق على الدالة التقليدية للإنتروبيا المتقاطعة (cross-entropy) في تصنيف التشوهات التنفسية على مجموعتي بيانات مختلفتين. كما نُظهر أن تعلّم التمثيلات باستخدام المعلومات الوصفية فقط، دون استخدام التصنيفات، يحقق أداءً مشابهًا لاستخدام الدالة التقليدية للإنتروبيا المتقاطعة مع التصنيفات فقط. بالإضافة إلى ذلك، عند دمج التصنيفات مع المعلومات الوصفية باستخدام التعلم المتناهي المراقب المتعدّد (multiple supervised contrastive learning)، وهو تمديد للتعلم المتناهي المراقب يُحلّ مسألة تجميع المرضى ضمن نفس الفئة الجنسية والسنّية، يُتعلم تمثيل أكثر إفادة. تُشير هذه الدراسة إلى الإمكانات الكامنة لاستخدام مصادر متعددة من المعلومات الوصفية في سياقات التعلم المتناهي المراقب، خصوصًا في السياقات التي تعاني من عدم توازن في التصنيفات وقلة كمّ البيانات. تم إصدار الكود الخاص بنا على الرابط التالي: https://github.com/ilyassmoummad/scl_icbhi2017