لا تعودوا إلى المدرسة، لقد أصبحت أساليب المعلمين أكثر ذكاءً.

بقلم سوبر نيرو
اليوم هو اليوم العالمي للمعلم. لقد غمرت دوائر أصدقائي بالبركات للمعلمين. الجميع يشيد بالمعلمين ويفتقدون الحرم الجامعي. لكن إذا كنت تعرف البيئة المعيشية الصعبة التي يعيش فيها طلاب المدارس المتوسطة اليوم، أتساءل ماذا كنت ستفكر.
في الآونة الأخيرة، قامت مدرسة هانغتشو المتوسطة رقم 11 بتجربة نظام العين الذكية، الذي يقوم بتثبيت مجموعة من الكاميرات في الفصول الدراسية لالتقاط تعبيرات الطلاب وحركاتهم في الفصل. بمساعدة تقنية التعرف على الوجه، يتم جمع 6 أنواع من سلوكيات الطلاب في الفصل الدراسي و7 أنواع من تعبيراتهم في الفصل الدراسي.

يُطلق على نظام التدريس الذي أثار ضجة اسم "نظام إدارة سلوك الفصل الدراسي الذكي" أو "العين الذكية" باختصار.
ويقال أنه يمكن التقاط الطلاب بدقةاقرأ، قف، ارفع يدك، استلق على الطاولة، استمع واكتبو6 سلوكيات أخرى، مقترنة بتعابير وجوه الطلاب لتحليلهامحايد، سعيد، حزين، غاضب، خائف، مقزز، ومتفاجئ 7 مشاعر.
عيون ذكية - الطالب الذي يحب سرد القصص أكثر من غيره في الفصل
وبعد أن يقوم النظام بمعالجة هذه المعلومات ببساطة، فإنه سيولد سلسلة من الرموز، مثل A للاستماع إلى الفصل باهتمام، وB للاستلقاء للنوم، وC للإجابة على الأسئلة، واستخدام هذا للحكم على حالة الطالب. إن الحالة الجيدة، مثل الاستماع بعناية في الفصل، ستضيف نقاطًا، في حين أن الحالة السيئة، مثل النوم في الفصل، ستقلل النقاط.

سيتم إرسال هذه البيانات مباشرة إلى المعلمين بعد انتهاء الفصل الدراسي، حتى يتمكنوا من فهم تأثير الفصل وردود أفعال الطلاب.
يمكن للمعلمين استخدام هذه البيانات لتحسين أساليب التدريس الخاصة بهم، كما يمكن للمدارس استخدامها للحكم على جودة التدريس الذي يقدمه المعلمون. ومع ذلك، بسبب وجود الكاميرات، فمن المحتمل أن يشعر الطلاب بقليل من عدم الارتياح، وهو أمر مفهوم.
وفيما يتعلق بقضايا الخصوصية وتسريب البيانات التي تهم الجمهور، يقال إن معلومات البيانات التي يولدها هذا النظام لا يمكن مشاهدتها إلا من قبل المعلمين وكبار السن في المدارس، وليس للمعلمين الآخرين أو الغرباء الحق في مشاهدتها.

(الدائرة الحمراء أعلاه هي جهاز التعرف على الوجه، والدائرة الحمراء أدناه هي الكاميرا التي تجمع المعلومات)
يتكون الجزء المادي من كاميرا قابلة للدوران وجهاز التعرف على الوجه. يوجد حوالي ثلاثة في كل فصل دراسي، ويقومون بالمسح كل 30 ثانية.
يتم استخدام جميع الكاميرات فقط لجمع المعلومات السلوكية ولن يتم استخدامها للمراقبة أو التسجيل. لن تكون هناك أي مشاكل تتعلق بالخصوصية أو تسرب البيانات.
وتخطط المدرسة المتوسطة رقم 11 لتثبيت هذا النظام في جميع الفصول الدراسية هذا العام، والذي لن يراقب مشاعر الطلاب في الفصل فحسب، بل سيسجل أيضًا حضورهم من خلال التعرف على الوجه. ومع ذلك، لا يزال النظام في مراحله الأولى ويحتاج إلى المزيد من البيانات للتعلم منها من أجل تحسين دقة التعرف على المشاعر.
وفي المستقبل، يخططون لاستبدال جميع عمليات تمرير البطاقات في المدرسة بمسح الوجه، مما يؤدي إلى إنشاء أول حرم جامعي بدون بطاقة في البلاد. أتساءل عما إذا كان هذا مستوحى من جاك ما مؤسس علي بابا المجاور.
قد يكون مراقبة الفصل الدراسي أمرًا جيدًا
ينبغي لمدرسة هانغتشو المتوسطة رقم 11 أن تكون أول من يجلب التكنولوجيا العالية إلى الحرم الجامعي، ولكننا نأمل أيضًا أن لا تستخدم المدرسة التعرف العاطفي، الذي يستخدم لتحسين جودة التدريس، كأداة مراقبة في الوقت الفعلي. وبعد كل شيء، على الرغم من أن الحرم الجامعي هو مكان عام، إلا أنه ينبغي لكل طالب أن يحتفظ ببعض الخصوصية الشخصية ضمن حد معين.
في نهاية المطاف، فإن السبب وراء جذب نظام العين الذكية الانتباه والنقاش هو أن الجميع يشعرون بأن الطلاب يخضعون للمراقبة. ولكن فكر في الأمر بطريقة أخرى. تزعم شركة هويان أن البيانات لا يتم تخزينها أو إتاحتها للعامة، وهو ما يشبه في الواقع عيون المعلم بالمعنى التقليدي.
لذلك فإن أهم شيء هو "اتفاقية المستخدم". ما يجب على المدرسة توضيحه الآن هو نطاق الاستخدام والترخيص لمحتوى الفيديو في هويان.
التنفيذ الفني للتعرف على المشاعر
لقد أصبح من المعروف أن الآلات قادرة على التعرف على المشاعر الإنسانية، إلا أن تعقيد البيانات التدريبية الضخمة وبناء النماذج قد أعاق العديد من الباحثين.
الآن، توصل خمسة رجال كبار إلى نموذج خفيف الوزن للتعرف على المشاعر يمكنه ليس فقط إكمال تصنيف مجموعات التدريب تلقائيًا، بل ويجعل أيضًا عملية بناء النموذج بسيطة، مما يقلل بشكل كبير من عتبة إنشاء نماذج التعرف على المشاعر.
يعتمد التعرف على المشاعر على تقنيات مثل التعرف على الصور والوجوه، ويحدد الحالات العاطفية البشرية من خلال تحليل السلوكيات الجسدية للأشخاص (مثل التعرف على تعبيرات الوجه والصوت والموقف).

تنوع المشاعر في الوجه البشري
على الرغم من أن الشبكات العصبية للتعرف على المشاعر تُستخدم على نطاق واسع في مجالات مثل الرعاية الصحية وتحليل العملاء، إلا أن معظم نماذج التعرف على المشاعر لا تزال غير قادرة على فهم المشاعر البشرية بشكل عميق، كما أن بناء مثل هذا النموذج مكلف للغاية ويصعب تطويره.
نموذج التعرف على المشاعر الخفيف، دعونا نلقي نظرة عليه
ولحل هذه المشكلة، نشر خمسة مهندسين من مختبرات Orange وجامعة كاين نورماندي (UNICAEN) في فرنسا ورقة بحثية مشتركة "نظرة أوكام على تعلم العواطف السمعية والبصرية".
في ورقتهم البحثية، اقترحوا نموذجًا خفيف الوزن للشبكة العصبية العميقة يعتمد على التعرف على المشاعر السمعية والبصرية (أي التعرف على المشاعر باستخدام الصوت والفيديو). ويقال إن النموذج سهل التدريب، ويمكنه تصنيف مجموعة التدريب تلقائيًا، ويتمتع بدقة عالية، ويمكنه الأداء الجيد حتى مع مجموعة تدريب صغيرة.
النموذج المقترح في هذه الورقة هو التاليشفرة أوكام، وتم تدريبها على أساس مجموعة بيانات AFEW. يتم معالجة الصوت والفيديو مسبقًا وتحليل الميزات في وقت واحد من خلال طبقات معالجة متعددة (تستخدم لاستخراج الميزات والتحليل وما إلى ذلك)، وأخيرًا يتم دمج الاثنين لإخراج نتيجة التعرف على المشاعر.
AFEW تعني "تعابير الوجه التمثيلية في البرية". إنها مجموعة من بيانات التعرف على التعبيرات التي توفر بيانات اختبار لتدريب نموذج التعرف على المشاعر وسلسلة EmotiW من تحديات التعرف على المشاعر.
وتأتي كافة البيانات من مقاطع فيديو تحتوي على تعبيرات وجهية تم تحريرها من الدراما السينمائية والتلفزيونية، بما في ذلك التعبيرات الأساسية الستة "السعادة والمفاجأة والاشمئزاز والغضب والخوف والحزن"، بالإضافة إلى التعبيرات المحايدة.
من أجل جعل النموذج يتعرف بشكل أفضل على بيانات التدريب في AFEW، قام موظفو البحث والتطوير الخمسة أيضًا بإجراء بعض الابتكارات على النموذج:
1) تقليل أبعاد الميزة وتبسيط عمليات تحليل النموذج من خلال التعلم الانتقالي والتضمين في الفضاء منخفض الأبعاد؛
2) أخذ العينات عن طريق تسجيل كل إطار لتقليل حجم مجموعة التدريب؛
3) استخدم آلية اختيار إطار بسيطة لترجيح تسلسل الصورة؛
4) يتم تنفيذ أشكال مختلفة من دمج الميزات في مرحلة التنبؤ، أي معالجة الفيديو والصوت بشكل منفصل ثم دمجهما.
تؤدي هذه السلسلة من الابتكارات إلى تقليل عدد المعلمات التي تميز خصائص مجموعة البيانات بشكل كبير، وتبسيط عملية تدريب النموذج، وتحسين دقة التعرف على المشاعر. في مسابقة التعرف على المشاعر EmotiW (تحدي التعرف على المشاعر في البرية) لعام 2018، حقق النموذج دقة التعرف بنسبة 60.64%، ليحتل المرتبة الرابعة.

حصل النموذج على المركز الرابع في تصنيفات دقة نموذج التعرف على المشاعر السمعية والبصرية EmotiW لعام 2018.
تم تطوير نموذج التعرف على المشاعر الأعلى تصنيفًا بواسطة SEEK TRUTH، وهي شركة تكنولوجيا مالية محلية للذكاء الاصطناعي، بمعدل دقة يبلغ 61.87%. تم تطوير النموذج الذي احتل المرتبة الثانية بواسطة DeepAI، وهي شركة ناشئة في مجال الذكاء الاصطناعي في كاليفورنيا بالولايات المتحدة الأمريكية، بمعدل دقة يبلغ 61.10%.
يمكن للنموذج إضافة تسميات تلقائيًا إلى مجموعة التدريب
بالمقارنة مع نماذج التعرف على المشاعر الأخرى، فإن الميزة الأكبر لهذا النموذج هي أنه من السهل بناؤه وتدريبه. ويمكن أن يجعل من الأسهل على أجهزة الكمبيوتر إدراك التعبيرات البشرية الدقيقة، بما في ذلك لغة الجسد.
في الوقت الحاضر، يتم تدريب معظم نماذج التعرف على المشاعر من خلال تعبيرات الوجه للشخصيات في الدراما السينمائية والتلفزيونية. أولاً، تكلفة الاستحواذ منخفضة، وثانياً، التعبيرات غنية.

ومع ذلك، عندما يتم إدخال هذه البيانات في مجموعة التدريب، لا يتم تصنيفها (أي تتم إضافة تسميات المشاعر إلى كل مقطع فيديو). لذلك، قبل التدريب، يجب تصنيفها يدويًا أو من خلال طرق أخرى، وهو أمر يصعب تنفيذه ويمكن أن يؤدي بسهولة إلى تشويه مجموعة التدريب.
يمكن لنموذج التعرف على المشاعر السمعية والبصرية الذي طوره فريدريك جوري وآخرون تصنيف التعبيرات في مجموعة التدريب تلقائيًا من خلال شبكة عصبية عميقة لاستخدامها بواسطة النموذج.
وبهذه الطريقة، يتم تقليل صعوبة تدريب النموذج مع تحسين دقة التعرف.
يثبت هذا النموذج أيضًا أن نماذج الشبكات العصبية خفيفة الوزن يمكنها تحقيق نتائج جيدة ويسهل تدريبها، على النقيض تمامًا من نماذج الشبكات العصبية المعقدة بشكل متزايد اليوم.
وفي المستقبل، سوف يدرسون بشكل أكبر كيفية دمج البيانات بشكل أفضل في التنسيقات غير المرئية والتعرف على البيانات ذات التصنيفات الأقل أو حتى بدون تصنيفات.