مايكروسوفت تحذف مجموعات بيانات معروفة، مما يوضح لغز خصوصية البيانات

قبل بضعة أيام، قامت شركة مايكروسوفت بهدوء بحذف مجموعة بيانات صور المشاهير العامة. تحتوي مجموعة البيانات هذه على 100000 صورة وجه لشخص مشهور ويتم استخدامها غالبًا لتدريب التعرف على الوجه. نحن لا نعرف السبب الحقيقي وراء قيام مايكروسوفت بحذفه، ولكن قضايا خصوصية البيانات التي تكمن وراء ذلك، بما في ذلك معايير الأمان الخاصة بتقنية التعرف على الوجه، تستحق التأمل.
قامت شركة مايكروسوفت بإزالة مجموعة بيانات صور المشاهير الأسبوع الماضي. كانت هذه في السابق أكبر مجموعة بيانات عامة للتعرف على الوجوه في العالم، ولكنها لم تعد متاحة عبر قنوات Microsoft.
ما هي القضايا التي تنطوي عليها هذه الحذف "الصامت"؟
المشكلة التي تريد مايكروسوفت حلها: مجموعة بيانات المشاهير من مايكروسوفت
تم إصدار مجموعة بيانات MS Celeb 1M لأول مرة بواسطة Microsoft في عام 2016 وتحتوي على 100,000 من المشاهير، ما يقرب من 10 ملايين صورة للوجهويتم جمع هذه البيانات من الإنترنت.
لقد قمنا باختيار 100 ألف من المشاهير من بين مليون شخص على الإنترنت بناءً على شعبيتهم، ثم استخدمنا محرك بحث لاستخراج حوالي 100 صورة لكل شخص للحصول على هذه المجموعة الضخمة من البيانات.

تم استخدام هذه المجموعة من البيانات في الأصل لخدمة المنافسة. مركز أبحاث MSR إنها واحدة من مسابقات التعرف على الصور ذات المستوى الأعلى في العالم، وقد تم استخدام مجموعة بيانات MS Celeb 1M في الأصل لهذه المسابقة.
يتم استخدام MS Celeb 1M غالبًا للتدريب على التعرف على الوجه. ومع ذلك، بما أن هذه الصور كلها تأتي من الإنترنت، فقد أصبحت موضع تساؤل. وقالت مايكروسوفت أنها كانت تعتمد على اتفاقية ترخيص المشاع الإبداعي، لالتقاط هذه الصور والحصول عليها.
وبموجب الاتفاقية، يمكن إعادة استخدام الصور لأغراض البحث الأكاديمي (الأشخاص الموجودون في الصور لا يمنحون الإذن بالضرورة، ولكن أصحاب حقوق الطبع والنشر يفعلون ذلك). لكن بعد أن تقوم مايكروسوفت بإصدار مجموعة البيانات، لم تعد لديها أي سيطرة على استخدامها. أجرت صحيفة فاينانشال تايمز تحقيقا معمقاً ووجدت أن البيانات تُستخدم على نطاق واسع في اختبارات الشركات المتعددة.
وقد استخدمت شركات مثل IBM، وPanasonic، وAlibaba، وNvidia، وHitachi مجموعة البيانات هذه.
ويتضمن ذلك بعض القضايا المعيارية في استخدام مجموعات البيانات. وأشار أحد الباحثين أيضًا إلى أن هذا ينطوي علىوجهالقضايا الأخلاقية والمنشأ والخصوصية المتعلقة بتحديد مجموعات بيانات الصور.
سبب الحذف: هل ترك الموظف المسؤول عن هذه المجموعة من البيانات عمله؟
قامت شركة مايكروسوفت بإزالة MS Celeb 1M من الإنترنت بصمت دون أي تفسير محدد.

وفي تقرير في صحيفة فاينانشيال تايمز، قالت مايكروسوفت "الغرض الرئيسي لهذا الموقع هو الأغراض الأكاديمية"السبب في حذفه هو أن"لقد غادر الموظف الذي كان يدير المشروع ولم يعد يعمل مع Microsoft، لذا تم حذفه."
نحن جميعًا نعتقد أنه لا بد من وجود أسباب أخرى، وربما تكون هناك مشكلات في الصور الموجودة في مجموعة البيانات. على الرغم من أن مايكروسوفت قالت إن مجموعات البيانات كلها تأتي من صور الشخصيات العامة. لكنها تشمل أيضًا عددًا صغيرًا من الشخصيات غير المشهورة. وأثار أصحاب هذه الصور الوجوهية تساؤلات وانتقادات بشأن استخدام مايكروسوفت لأسمائهم ومعلومات صورهم.
وتكهن بعض الموظفين الفنيين أيضًا بأن مايكروسوفت قد تُتهم بانتهاك قوانين الاتحاد الأوروبي. اللائحة العامة لحماية البيانات (GDPR)أما فيما يتعلق بحذف البيانات، فقد دخل القانون حيز التنفيذ العام الماضي، ويهدف إلى إرساء حماية أمن البيانات.

لكن مايكروسوفت قالت إنها لم تكن مشاركة في أحكام اللائحة العامة لحماية البيانات، وتم إيقاف مواقع الويب المرتبطة بمجموعات البيانات ببساطة لأن "المنافسة انتهت".
بالطبع، هذه المرة قامت Microsoft بإزالة مجموعة بيانات MS Celeb.وهذا لا يمنع من استخدامه بشكل طبيعي في البحث الأكاديمي والقنوات الأخرى.. أصبح من الممكن الآن الوصول إلى الأدوات اللازمة للعمل مع قواعد البيانات بشكل طبيعي أيضًا.
قد تكون لمجموعات البيانات العامة المستخدمة بشكل شائع أيضًا مشكلات تتعلق بالخصوصية
بعد التحقيق الذي أجرته فاينانشيال تايمز، قامت مؤسستان أكاديميتان أخريان أيضًا بحذف مجموعات البيانات ذات الصلة: جامعة ديوك مجموعة بيانات مراقبة Duke MTMC، وجامعة ستانفورد مجموعة بيانات غسيل الدماغ.
وهذه ليست المرة الأولى التي تثير فيها قضايا تتعلق بمجموعات البيانات والخصوصية اهتمام الناس. في نهاية شهر يناير/كانون الثاني من هذا العام، أصدرت شركة IBM مجموعة بيانات غير متحيزة حول "تنوع الوجوه" تتألف من مليون مستوى، الأمر الذي تسبب في جدل واسع النطاق.
ورغم أن شركة آي بي إم أكدت أن هذه الخطوة تهدف إلى الحد من مشكلة "التحيز" في التعرف على الوجوه، إلا أن مصدر مجموعة البيانات ودرجة الوعي بالشخصيات أثارت العديد من التساؤلات.
وذكرت بعض وسائل الإعلام أيضًا أن شركة IBM قالت إنها ستحذف الصور ذات الصلة في مجموعة البيانات وفقًا لرغبات الأشخاص المعنيين، ولكن هذه كانت مجرد تصريحات أحادية الجانب ولم يتم اتخاذ أي إجراء فعلي.

لا تزال قواعد جمع واستخدام مجموعات البيانات تشكل مجالًا غير واضح للغاية، وخاصة مع سهولة استخدام الإنترنت، حيث يمكن للعديد من المؤسسات الحصول بسهولة على أعداد كبيرة من الصور لأغراض مثل التعرف على الوجه.
في الواقع، يمكن أن يكون حل مشكلات الخصوصية المتعلقة بمجموعة البيانات بسيطًا للغاية:عندما يتعلق الأمر بمعلومات الخصوصية الشخصية للمستخدم، يجب ضمان حق المستخدم في المعرفة، ويجب ضمان ما إذا كان المستخدم على استعداد للمساهمة بالبيانات..
لكن ما يبدو أنه مفقود ليس الطريقة، بل الوعي.