مايكروسوفت ليست الأولى، ومعهد ماساتشوستس للتكنولوجيا ليس الأخير، الذي يقوم بإزالة مجموعة بيانات بشكل دائم

أصدر معهد ماساتشوستس للتكنولوجيا مؤخرًا إشعارًا بإزالة مجموعة بيانات Tiny Images الشهيرة بشكل دائم لأنها أشارت إلى أنها تحتوي على تمييز عنصري مشتبه به وتمييز ضد المرأة.
أصدر معهد ماساتشوستس للتكنولوجيا (MIT) مؤخرًا بيان اعتذار.تم الإعلان عن أن مجموعة بيانات الصور الصغيرة سيتم إزالتها بشكل دائم من الرفوف، ويُطلب من المجتمع بأكمله إلغاء تنشيط هذه المجموعة وحذفها بشكل مشترك. لا ينبغي للمستخدمين الذين لديهم بالفعل مجموعة البيانات هذه تقديمها للآخرين.
في العام الماضي، تمت إزالة العديد من مجموعات البيانات المعروفة التي أصدرتها الشركات ومؤسسات البحث من الرفوف أو حظرها بشكل دائم، بما في ذلكمجموعة بيانات المشاهير MS Celeb 1M من Microsoft، ومجموعة بيانات المراقبة Duke MTMC من جامعة Duke للتعرف على المشاة، ومجموعة بيانات Brainwash من جامعة Stanford لاكتشاف الرأس.
تم إطلاق مجموعة بيانات الصور الصغيرة التي تم إزالتها من الرفوف هذه المرة وإصدارها بواسطة معهد ماساتشوستس للتكنولوجيا في عام 2006. وكما يوحي الاسم، فهي عبارة عن مجموعة بيانات صور صغيرة.
يحتوي على 79.3 مليون صورة ملونة بقياس 32*32 بكسل، تم جمع معظمها من صور Google.

يتطلب تحميل مجموعة أدوات MATLAB وملف بيانات الفهرس
يبلغ حجم مجموعة البيانات بأكملها حوالي 400 جيجابايت. كما أن الحجم الكبير لمجموعة البيانات يجعلها أيضًا واحدة من أكثر مجموعات البيانات شيوعًا في مجال أبحاث الرؤية الحاسوبية.
الأوراق المنشورة في وقت واحد مع هذه المجموعة من البيانات "80 مليون صورة صغيرة: مجموعة بيانات كبيرة للتعرف على الأشياء والمشاهد غير المعيارية"يصل عدد الاستشهادات القابلة للبحث لهذه الورقة إلى 1718.
تؤدي الورقة البحثية إلى إجراء فحص ذاتي واسع النطاق لمجموعات البيانات
أصبحت مجموعة بيانات الصور Tiny Images موضوعًا ساخنًا بسبب ورقة بحثية نُشرت مؤخرًا بعنوان "مجموعة بيانات الصور الكبيرة: فوز باهظ الثمن لرؤية الكمبيوتر؟"
وتثير الورقة تساؤلات قوية حول مدى امتثال هذه المجموعات الكبيرة من البيانات.

عنوان الورقة: https://arxiv.org/pdf/2006.16923.pdf
أحد المؤلفين هو فيناي برابهو، كبير العلماء في UnifyID. UnifyID هي شركة ناشئة في مجال الذكاء الاصطناعي في وادي السيليكون تقدم للعملاء حلول التحقق من هوية المستخدم.
ومن بين المؤلفين الآخرين أبيبا بيرهان، وهي مرشحة للحصول على درجة الدكتوراه في جامعة كلية دبلن.
تتناول الورقة بشكل أساسي مجموعة البيانات ImageNet-ILSVRC-2012 كمثال.اكتشف المؤلف أن مجموعة البيانات تحتوي على عدد صغير من الصور التي تم تصويرها سراً (مثل تصوير الآخرين على الشاطئ سراً، بما في ذلك الأجزاء الخاصة).ويعتقد أنه بسبب المراجعة المتراخية، فإن هذه الصور تنتهك بشكل خطير خصوصية الأطراف المعنية.
كانت في السابق مجموعة بيانات كلاسيكية، لكنها الآن غير صحيحة سياسياً
على عكس ImageNet، الذي يشتبه في انتهاكه للخصوصية،السبب وراء إدانة مجموعة بيانات الصور الصغيرة في البحث هو وجود عشرات الآلاف من الصور التي تحمل تسميات عنصرية وكراهية للنساء في مجموعة البيانات.
وأشارت أيضًا إلى أنه نظرًا لأن مجموعة بيانات الصور الصغيرة لم تتم مراجعتها بأي شكل من الأشكال، فإن مشاكل التمييز وانتهاك الخصوصية أصبحت أكثر خطورة.

هذا يتعلق بـ تمت تسمية مجموعة بيانات الصور الصغيرة بناءً على مواصفات WordNet، حيث يتم تصنيف ما يقرب من 80 مليون صورة إلى 75000 فئة.
إن بعض العلامات الموجودة في WordNet هي التي جعلت مجموعة البيانات موضع تساؤل.
WordNet هو المسؤول، ومجموعات بيانات الصور هي المسؤولة أيضًا
كما نعلم جميعًا، تم تصميم WordNet بشكل مشترك من قبل علماء النفس واللغويين ومهندسي الكمبيوتر من مختبر العلوم الإدراكية بجامعة برينستون. منذ إصداره في عام 1985، أصبح نظام القاموس الإنجليزي الأكثر توحيدًا وشاملًا في العالم الإنجليزي.
الوسائل الموحدة والشاملة: جمع الكلمات الإنجليزية الموجودة في المجتمع البشري بشكل موضوعي وإعطائها الفهم والارتباط.
في مجموعة بيانات الصور الصغيرة، يتم استخدام 53,464 اسمًا مختلفًا من WordNet كعلامات للصور.

وهذا هو السبب أيضًا في أن الاستشهاد المباشر بتعبيرات الوجود الاجتماعي البشري سيؤدي حتماً إلى إدخال بعض الكلمات التي تنطوي على التمييز العنصري والتمييز الجنسي.
على سبيل المثال، الكلمات التي تعبر عن إهانات واضحة أو معاني مهينة ب*ش، وير، ني*جإر إلخ، أصبحت علامات ذات صلة بالصور. بالإضافة إلى ذلك، هناك بعض المصطلحات الذاتية، مثل متحرش بالأطفال انتظر.
قبل البحث العلمي، نحتاج إلى قياس الأثر الاجتماعي
ويعتقد المؤلف أن العديد من مجموعات البيانات الخاصة بالصور واسعة النطاق لم يتم النظر فيها بعناية فيما يتعلق بالتأثير الاجتماعي عندما تم إنشاؤها لأول مرة، وقد تشكل تهديدًا وضررًا لحقوق الأفراد.
وبما أن المعلومات أصبحت الآن مفتوحة المصدر، فيمكن لأي شخص استخدام واجهة برمجة تطبيقات مفتوحة لتشغيل استعلام لتحديد أو الحكم على هوية أو صورة البشر في ImageNet أو مجموعات البيانات الأخرى. وهذا أمر خطير بالفعل ويعد تعدياً على الأطراف المعنية. وقد أعطى المؤلف أيضًا ثلاثة حلول:
الأول هو الواقع الاصطناعي وتقطير مجموعة البيانات،على سبيل المثال، استخدام (أو تحسين) الصور الاصطناعية بدلاً من الصور الحقيقية أثناء تدريب النموذج؛
ثانياً، تعزيز التصفية الأخلاقية لمجموعات البيانات؛
ثالثا، التدقيق على مجموعة البيانات الكمية.أجرى المؤلفون تحليلًا كميًا متعدد الفئات لـ ImageNet لتقييم مدى الانتهاكات الأخلاقية وقياس جدوى الأساليب القائمة على شرح النموذج.
إزالة مجموعة البيانات: إما بسبب الوعي الذاتي أو بسبب الضغط الخارجي
ولا يعد معهد ماساتشوستس للتكنولوجيا أول معهد يقوم طواعية بإزالة مجموعة بيانات بسبب الضغط العام أو الوعي الذاتي. في منتصف عام 2019، قامت شركة Microsoft بإزالة مجموعة البيانات الشهيرة MS Celeb 1M وأعلنت أنها لن تستخدمها بعد الآن.
يتم الحصول على مجموعة بيانات MS Celeb 1M من خلال العثور على مليون شخص مشهور على الإنترنت، واختيار 100000 بناءً على شعبيتهم، ثم استخدام محرك بحث لاختيار ما يقرب من 100 صورة لكل شخص.

يتم استخدام MS Celeb 1M غالبًا للتدريب على التعرف على الوجه. تم استخدام مجموعة البيانات لأول مرة في مسابقة MSR IRC، وهي واحدة من مسابقات التعرف على الصور ذات المستوى الأعلى في العالم. وتستخدم شركات مثل IBM وPanasonic وAlibaba وNvidia وHitachi أيضًا مجموعة البيانات هذه.
وأشار أحد الباحثين إلى أن هذا الأمر يتضمن قضايا مثل الأخلاقيات والأصل والخصوصية الشخصية لمجموعات بيانات صور التعرف على الوجه. لأن هذه الصور كلها من الإنترنت، على الرغم من أن مايكروسوفت ذكرت أنها التقطت وحصلت على هذه الصور بناءً على "اتفاقية ترخيص المشاع الإبداعي CC" (الأشخاص في الصور لا يوافقون بالضرورة على الترخيص، ولكن مالك حقوق النشر يفعل ذلك).
وبموجب الاتفاقية، يمكن استخدام الصور لأغراض البحث الأكاديمي، ولكن بعد أن تنشر مايكروسوفت مجموعة البيانات، فإنها لن تتمكن من الإشراف على استخدام مجموعة البيانات بشكل فعال.
بالإضافة إلى مجموعة بيانات MS Celeb 1M، هناك أيضًا مجموعة بيانات مراقبة Duke MTMC للتعرف على المشاة التي أصدرتها جامعة Duke ومجموعة بيانات Brainwash لاكتشاف الرأس التي أصدرتها جامعة Stanford.
قم بتنزيل مجموعات البيانات الأخرى في أقرب وقت ممكن، ربما سيتم إزالتها غدًا
لقد تسببت حركة المساواة العنصرية "حياة السود مهمة" الأخيرة في حالة من الذعر في جميع مناحي الحياة في أوروبا والولايات المتحدة، كما كانت مجتمعات علوم الكمبيوتر والهندسة أيضًا تناقش وتتجادل وتتأمل باستمرار.
في البداية، بدأت الشركات والمنظمات الممثلة بلغة Github وGo في تعديل معايير التسمية. على سبيل المثال، يجب تجنب المصطلحين "القائمة السوداء" و"القائمة البيضاء"، واستخدام المصطلحين المحايدين "القائمة المحظورة" و"القائمة المسموح بها" بدلاً من ذلك، أو يجب تغيير اسم الفرع الافتراضي من "master" إلى "trunk".
واتهم ليكون، أحد رواد التعلم العميق، بالإدلاء بتصريحات عنصرية وجنسية، واستقال طواعية من تويتر.
والآن، قد يتم توجيه الصوابية السياسية نحو مجموعات كبيرة من البيانات.
من المؤكد أن عددًا كبيرًا من مجموعات البيانات تعاني من العديد من العيوب والنقائص عندما يتم تصميمها لأول مرة. ومع ذلك، في ظل الظروف الحالية، فإن إزالة مجموعات البيانات ذات الصلة بشكل مباشر ليست الطريقة الأفضل لمعالجة التحيز.
وبعد كل شيء، لا توجد هذه الصور فقط في هذه المجموعات من البيانات، وهذه التحيزات ليست مجرد بضع كلمات في WordNet.
على الرغم من إزالة مجموعة البيانات، لا تزال الصور متاحة في كل ركن من أركان الإنترنت. على الرغم من تعطيل WordNet، إلا أن هذه الكلمات لا تزال موجودة في أذهان الناس. إذا أردنا حل مشكلة التحيز في الذكاء الاصطناعي، يتعين علينا الانتباه إلى التحيز طويل الأمد في الثقافة الاجتماعية.
-- زيادة--