كيف تتعلم الشبكات العصبية التلافيفية تشابه الموسيقى من خلال تمثيلات صوتية لتحسين التوصيات الموسيقية
تُعد الشبكات العصبية التلافيفية (CNN) أداة فعّالة في تعلم التشابه الموسيقي من خلال تمثيل الأصوات في فضاءات تدرجية (embeddings)، وهي تُستخدم بشكل متزايد في منصات البث الموسيقي مثل سبوتيفاي وآبل ميوزيك لتحسين توصيات الأغاني. بدلاً من الاعتماد فقط على سلوك المستخدم أو بيانات الأغاني (كالنوع أو الفنان)، تُستخدم هذه الشبكات لاستخراج خصائص صوتية عميقة مثل الإيقاع، النغمة، النسيج الصوتي، ونمط الإنتاج، مما يسمح بتمييز الأغاني المشابهة بناءً على ما تُشبهه صوتيًا. لتحويل الصوت إلى مدخل يمكن للشبكة العصبية معالجته، يُحوّل الملف الصوتي (مثل MP3) إلى تمثيل ثنائي الأبعاد يُسمى "مخطط ميل-سبكتروغرام" (mel-spectrogram)، والذي يُظهر تغيرات الطاقة الترددية عبر الزمن، مُعدّلًا ليناسب تصور الإنسان للصوت. تُظهر الألوان الفاتحة طاقة عالية، بينما تمثل الألوان الداكنة طاقة منخفضة، أما الخطوط الأفقية فهي تمثل نغمات مستمرة (كالأصوات أو الأوتار)، والخطوط العمودية تمثل نبضات قصيرة (كالطبول). لتدريب النموذج دون الحاجة إلى تسميات يدويّة، تُستخدم تقنية تُسمى "التعلم التبايني" (contrastive learning). يتم تقسيم كل أغنية إلى قطع صغيرة (chunks)، ويُنشَأ كل دفعة تدريبية من 8 أغانٍ، حيث تُقطع كل واحدة إلى مقطع 128×129 بكسل. ثم تُولَّد نسختان مُعدّلتين من كل دفعة بإضافة ضوضاء عشوائية، ويُحسب التشابه بين متجهات التمثيل (embeddings) باستخدام دالة التشابه الجيبي (cosine similarity) بعد تطبيعها. الهدف هو جعل التمثيلات المُستمدة من نفس القطعة (الزوج الموجب) قريبة جدًا، بينما تُبعد التمثيلات من أغانٍ مختلفة (الزوج السالب). البنية الأساسية للشبكة تتكون من ثلاث طبقات تلافيفية متتالية، تزيد تدريجيًا من عدد الفلاتر (32، ثم 64، ثم 128)، مما يسمح للنموذج بتعلم أنماط محلية أولًا (مثل نبضات الطبول)، ثم أنماط أكثر تعقيدًا (مثل الإيقاعات المتكررة أو النسيج الصوتي)، وأخيرًا سمات عالية المستوى (مثل التوازن الطيفي). تليها طبقة تجميعية (global average pooling) تحوّل التمثيل إلى متجه ثابت الطول (128 بعدًا)، يُطبّق عليه تطبيع L2 لضمان أن جميع المتجهات تقع على كرة الوحدة، مما يسهل حساب التشابه الجيبي. لتقييم جودة التمثيل، تُستخدم تقنيات تقليل الأبعاد مثل PCA وt-SNE. تُظهر نتائج PCA توزيعًا مستمرًا وسلسًا للأنواع الموسيقية، مما يدل على أن النموذج يُدرك التدرجات الدقيقة في الصوت، وليس فقط الفروق الصريحة بين الأنواع. أما t-SNE، فيُظهر تجميعًا محليًا للأغاني من نفس النوع، مع تداخل بين الأنواع، وهو ما يعكس الواقع الموسيقي حيث تتقاطع الخصائص بين الأنواع. لتحويل النموذج إلى نظام توصية عملي، تم بناء تطبيق ويب بسيط: يرفع المستخدم ملفًا صوتيًا، يُحوّل إلى مخطط ميل-سبكتروغرام، ويُحسب تمثيله، ثم يُقارن بتمثيلات مسبقة حسابها من مجموعة بيانات FMA. يتم عرض الأغاني الأكثر تشابهًا بناءً على التشابه الجيبي. يُستخدم التمثيل المسبق لتسريع العمليات، ويتم دمج تمثيلات القطع في تمثيل واحد لكل أغنية. في الممارسة العملية، تُدمج هذه التمثيلات الصوتية مع نماذج التوصية القائمة على التفاعل (collaborative filtering) لبناء أنظمة هجينة، تجمع بين ما تُشبهه الأغنية صوتيًا، وما يفضله المستخدم فعليًا، مما يعزز دقة التوصيات وتجربة المستخدم.
