HyperAIHyperAI
Back to Headlines

كيف يتعلم الذكاء الاصطناعي بدون بيانات مُصنفة: الثورة الصامتة للتعلم ذاتي التسمية

منذ 3 أيام

في عالم الذكاء الاصطناعي، أصبحت تقنية التعلم ذاتي التسمية (Self-Supervised Learning) حجر الزاوية في تطوير نماذج قوية دون الحاجة إلى بيانات مُعلَّمة يدويًا. بدلًا من الاعتماد على ملايين الصور المُصنَّفة يدويًا، يمكن للنماذج التعلُّم من كميات هائلة من البيانات الخام — صور، نصوص، أو صوتيات — من خلال إنشاء مهام تدريب ذاتية. في هذا المثال، يتم استخدام صور فئات القطط والكلاب غير مُصنَّفة (unlabeled) لتدريب نموذج على استخلاص ميزات مفيدة. يتم تطبيق تحويرات عشوائية على الصور مثل التقطيع العشوائي، التبديل الأفقي، تغيير الألوان، وتغيير التدرجات الرمادية، مما يُنتج زوجين من التحويلات لكل صورة. الهدف هو جعل النموذج يتعلم أن صورتين ناتجتين عن نفس الصورة (رغم التحويلات) يجب أن تكونا قريبتين في الفضاء المميز، بينما تبقى الصور الأخرى بعيدة. يُستخدم في التدريب مُشفِّر (Encoder) مبني على موديل ResNet18، حيث يتم إزالة الطبقة الأخيرة (fc) واستبدالها بطبقة تُولِّد تمثيلات مُنظَّمة (normalized embeddings) بحجم 128. يتم تدريب هذا المُشفِّر باستخدام دالة خسارة تُسمى NT-Xent (Normalized Temperature-scaled Cross Entropy)، وهي دالة تُشجِّع على التقارب بين التمثيلات المُستمدة من نفس الصورة، وتُبعِد التمثيلات الأخرى. بعد 5 دورات تدريب (epochs) على بيانات غير مُصنَّفة، يتم حفظ المُشفِّر المُدرَّب. ثم، يتم استخدامه كأساس لمرحلة التدريب الدقيق (fine-tuning) على مجموعة صغيرة من الصور المُصنَّفة (مثلاً 1000 صورة). يتم إضافة طبقة تصنيفية بسيطة (Linear layer) على رأس المُشفِّر، وتدريب النموذج على التمييز بين القطط والكلاب باستخدام بيانات مُصنَّفة قليلة. النتيجة: نموذج يحقق أداءً عاليًا في التصنيف، رغم استخدامه فقط عددًا قليلاً من العينات المُصنَّفة. هذا يُظهر قوة التعلم ذاتي التسمية في تقليل الاعتماد على التسمية اليدوية، التي تمثل عبئًا كبيرًا من حيث الوقت والتكلفة. في الواقع، هذه التقنية هي ما وراء نجاح نماذج ضخمة مثل GPT وVision Transformers (ViT). فباستخدام بيانات واسعة جدًا دون تسمية، تُدرَّب النماذج على فهم البنية الأساسية للبيانات، ثم تُعدَّل بسهولة لمهام محددة باستخدام بيانات محدودة. الفرصة الحقيقية تكمن في تطبيق هذه التقنية على بيانات نادرة أو متخصصة — سواء في الطب، الزراعة، أو الصناعة — حيث تُعدّ التسمية اليدوية صعبة أو مكلفة. من دون تجربة التعلم ذاتي التسمية، يُفوَّت فرصة تحسين الأداء، وزيادة الكفاءة، وتحقيق ابتكار حقيقي في مجالاتك الخاصة.

Related Links