ملخص مجموعة البيانات | فوضى DeepFake متفشية، استخدم السحر لهزيمة السحر! تساعد مجموعات البيانات عالية الجودة في تطوير تكنولوجيا الكشف عن المنتجات المقلدة

مع التطور السريع لتكنولوجيا الذكاء الاصطناعي، تم استخدام تقنية التعرف على الوجه على نطاق واسع في مجالات الأمن والدفع وتجارة التجزئة وغيرها من المجالات، مما أدى إلى تحسين راحة وأمان الحياة بشكل كبير. ومع ذلك، فقد ظهرت تدريجياً طبيعة التكنولوجيا ذات الحدين، وخاصة فيما يتعلق بحماية الخصوصية، وأصبح إساءة استخدام تقنية التعرف على الوجه محط اهتمام اجتماعي.
وبحسب تقرير CCTV الصادر في 315 Gala، قامت العديد من الشركات المعروفة بجمع وتخزين معلومات الوجه بشكل غير قانوني دون موافقة المستهلكين، وإنشاء معرفات فريدة، واستخدامها لتحليل الأعمال اللاحق والتسويق الدقيق. ويشكل هذا السلوك انتهاكا خطيرا لحقوق خصوصية المستهلكين وأثار قلقا اجتماعيا واسع النطاق.
في الوقت نفسه، فإن تقنية التزييف العميق المعتمدة على الذكاء الاصطناعي DeepFake "لا يمكن تمييزها عن الحقيقة"، مما يؤدي إلى تعطيل النظام الاجتماعي والتعدي على المصلحة العامة. يستخدم DeepFake كميات هائلة من بيانات التدريب لإنشاء عدد كبير من الصور ومقاطع الفيديو والصوت المزيفة. إن وضع تغيير الوجه متطور للغاية لدرجة أنه من الصعب على الأشخاص العاديين اكتشاف الاختلافات الدقيقة. يستخدم العديد من المجرمين هذه التقنية لتحقيق أرباح غير مشروعة. ويُعتقد أن عدد المجرمين في كوريا الجنوبية الذين يستخدمون هذه التكنولوجيا لتحقيق أرباح غير مشروعة يصل إلى 220 ألف شخص.
لذلك، على المستوى التقني، فإن التحديث المستمر لتكنولوجيا التعرف على الوجه والكشف عن التزوير للحكم بدقة على مقاطع الفيديو والصور المزيفة هذه هي قضية ساخنة تحتاج إلى حل عاجل. ستقوم هذه المقالة بفرز وتلخيص مجموعات البيانات الشائعة الاستخدام للتعرف على الوجوه وDeepFake، على أمل مساعدة الباحثين على إجراء الأبحاث في المجالات ذات الصلة بشكل أكثر فعالية إلى حد ما.
انقر هنا لعرض المزيد من مجموعات البيانات مفتوحة المصدر:
مجموعة بيانات DeepFake/التعرف على الوجه
1.مجموعة بيانات التعرف على مقاطع الفيديو للكشف عن التزييف العميق
منصة النشر:كاجل
وقت الإصدار:2024
الحجم المقدر:22.5 جيجابايت
عنوان التنزيل:https://go.hyper.ai/B8dJf
تم تصميم مجموعة بيانات اكتشاف Deepfake خصيصًا لمهمة اكتشاف deepfake وتوفر مجموعة شاملة من تسلسلات الفيديو التي يمكن استخدامها لتدريب نماذج التعلم العميق وتقييمها لتحديد الوسائط التي تم التلاعب بها. تم تنزيله من خادم FaceForensics الرسمي، المتخصص في توفير مجموعات بيانات عالية الجودة للكشف عن التلاعب بالوجه.
2.مجموعة بيانات LAV-DF السمعية والبصرية متعددة الوسائط
وكالة النشر:جامعة موناش، جامعة كيرتن، المعهد الهندي للتكنولوجيا روبار
وقت الإصدار:2022
الحجم المقدر:23.11 جيجابايت
عنوان التنزيل:https://go.hyper.ai/wTcYE
LAV-DF عبارة عن مجموعة بيانات متعددة الوسائط (التلاعب بالفيديو والتلاعب بالصوت) مشتقة من مجموعة بيانات VoxCeleb2، وتحتوي على 136,304 مقطع فيديو، بما في ذلك 36,431 مقطع فيديو حقيقي و99,873 مقطع فيديو مزيف.
3.مجموعة بيانات OpenForensics للكشف عن تزوير الوجوه
وكالة النشر:المعهد الوطني للمعلوماتية، اليابان؛ جامعة سوكندايغاكو، اليابان؛ جامعة طوكيو
وقت الإصدار:2021
عنوان التنزيل:https://go.hyper.ai/64Gn2
مجموعة بيانات OpenForensics عبارة عن مجموعة بيانات صعبة واسعة النطاق مصممة لمهام الكشف عن التزوير وتجزئة متعددة الأوجه. تتكون مجموعة البيانات من 115 ألف صورة برية و334 ألف وجه. تحتوي جميع الصور على تعليقات توضيحية غنية للوجه. إنه لا يدعم مهام اكتشاف التزوير متعدد الوجوه وتقسيمها فحسب، بل يدعم أيضًا المهام التقليدية التي تتضمن وجوهًا عامة. إنها تتمتع بإمكانيات كبيرة للبحث في مجال منع التزييف العميق والكشف عن الوجوه البشرية بشكل عام.
4.مجموعة بيانات تزوير الوجوه من ForgeryNet
وكالة النشر:مركز أبحاث SenseTime، جامعة بكين للبريد والاتصالات، مختبر الذكاء الاصطناعي في شنغهاي، كلية البرمجيات، جامعة بيهانغ، جامعة العلوم والتكنولوجيا في الصين، مختبر S، جامعة نانيانغ التكنولوجية
وقت الإصدار:2021
عنوان التنزيل:https://go.hyper.ai/h9fii
مجموعة بيانات ForgeryNet عبارة عن معيار كبير وشامل تم إنشاؤه خصيصًا لتحليل التزييف العميق. يحتوي على 2.9 مليون صورة و221,247 مقطع فيديو، تغطي 7 طرق تشغيل تزوير على مستوى الصورة و8 طرق تشغيل تزوير على مستوى الفيديو من جميع أنحاء العالم، ويدعم 4 مهام على مستوى الصورة والفيديو: تصنيف تزوير الصورة، وتحديد موقع التزوير المكاني، وتصنيف تزوير الفيديو، وتحديد موقع التزوير الزمني.
5.مجموعة بيانات تزوير الوجوه FFIW10K
وكالة النشر:مختبر رؤية الكمبيوتر، المعهد الفيدرالي السويسري للتكنولوجيا في زيورخ، معهد الذكاء الاصطناعي، جامعة بيهانغ، جامعة التكنولوجيا في سيدني
وقت الإصدار:2021
عنوان التنزيل:https://go.hyper.ai/rstji
تتضمن مجموعة البيانات 10000 مقطع فيديو مزيف عالي الجودة تم جمعها من موقع يوتيوب، بمتوسط 3 وجوه لكل إطار. يحتوي كل مقطع فيديو على وجوه حقيقية ووجوه مزيفة، وهو أقرب إلى المشاهد المعقدة الحقيقية. إن عملية التلاعب تتم بشكل آلي بالكامل ويتم التحكم فيها من خلال شبكة تقييم الجودة التنافسية للمجال، مما يجعل مجموعة البيانات قابلة للتطوير بدرجة كبيرة ومنخفضة تكلفة العمالة.
6.مجموعة بيانات الوجوه البشرية
منصة النشر:كاجل
وقت الإصدار:2024
الحجم المقدر:113.93 ميجابايت
عنوان التنزيل:https://go.hyper.ai/Ewakl
تحتوي مجموعة البيانات على ما يقرب من 9.6 ألف صورة وجه، و5 آلاف صورة وجه حقيقية، و4.63 ألف صورة وجه تم إنشاؤها بواسطة الذكاء الاصطناعي.
7.مجموعة بيانات التعرف على الوجه Glint360K
وكالة النشر:ديب جلينت
وقت الإصدار:2021
الحجم المقدر:161.46 جيجابايت
عنوان التنزيل:https://go.hyper.ai/j0rrB
تتكون مجموعة البيانات من حوالي 17 مليون صورة وجه، بما في ذلك حوالي 360 ألف هوية. إنها أكبر وأنظف مجموعة بيانات للتعرف على الوجوه حتى الآن. تم تصميمه لتدريب وتقييم نماذج التعرف على الوجه واسعة النطاق ويُستخدم على نطاق واسع في أبحاث وتطوير التعرف على الوجه، وخاصةً بالاقتران مع تقنية التعلم العميق.
8. فمجموعة بيانات الكشف عن تزوير الوجوه من aceForensics
وكالة النشر:الجامعة التقنية في ميونيخ (TUM)
وقت الإصدار:2020
عنوان التنزيل:https://go.hyper.ai/ItO9I
تحتوي مجموعة البيانات هذه على عدد كبير من عمليات الوجوه الاصطناعية والحقيقية. وتأتي البيانات من مقاطع فيديو مختلفة على منصة YouTube وتغطي العديد من منشئي الفيديو المختارين. وباستخدام هذه المجموعة من البيانات، يمكن للباحثين تطوير أساليب أكثر دقة وموثوقية للكشف عن صور ومقاطع فيديو الوجوه المزيفة وتحديدها.
9.مجموعة بيانات التعرف على الوجوه واسعة النطاق UTKFace
وكالة النشر:الجامعة الأمريكية
وقت الإصدار:2017
الحجم المقدر:1.45 جيجابايت
عنوان التنزيل:https://go.hyper.ai/8soAU
مجموعة بيانات UTKFace عبارة عن مجموعة بيانات وجه واسعة النطاق ذات نطاق عمري طويل (يتراوح من 0 إلى 116 عامًا)، وتحتوي على أكثر من 20000 صورة وجه مع تعليقات على العمر والجنس والعرق. تختلف الشخصيات في الصور بشكل كبير في الوضعية وتعبيرات الوجه والإضاءة والانسداد والدقة وما إلى ذلك، ويمكن استخدامها لمهام مختلفة مثل التعرف على الوجه وتقدير العمر والتنبؤ بتغير العمر وتحديد المعالم وما إلى ذلك.
10.مجموعة بيانات سمات الوجه CelebA
وكالة النشر:الجامعة الصينية في هونغ كونغ
وقت الإصدار:2015
الحجم المقدر:16.92 جيجابايت
عنوان التنزيل:https://go.hyper.ai/l0j1L
مجموعة بيانات CelebFaces (CelebA) عبارة عن مجموعة بيانات واسعة النطاق لسمات الوجوه تحتوي على أكثر من 200 ألف صورة للمشاهير، كل منها مُعلق عليها بـ 40 سمة وتغطي مجموعة واسعة من الوضعيات والخلفيات. تتضمن تعليقات CelebA 10,177 هوية، و202,599 صورة وجه، و5 مواقع بارزة.
11.مجموعة بيانات التعرف على الوجه VGG-Face2
وكالة النشر:جامعة أكسفورد
وقت الإصدار:2015
الحجم المقدر:37.49 جيجابايت
عنوان التنزيل:https://go.hyper.ai/XKI0Z
مجموعة بيانات VGG-Face2 هي مجموعة بيانات لصور الوجه تحتوي على بيانات وجوه 9131 شخصًا في المجموع. الصور كلها من بحث الصور في جوجل. يختلف الأشخاص في مجموعة البيانات بشكل كبير من حيث الوضعية والعمر والعرق والمهنة.
ما ورد أعلاه هو 11 مجموعة بيانات للتعرف على الوجوه و DeepFake تم تجميعها بواسطة HyperAI. إذا كان لديك موارد تريد تضمينها على الموقع الرسمي لـ hyper.ai، فنحن نرحب بك لترك رسالة أو إرسال مساهمتك لإخبارنا بذلك!
حول HyperAI
HyperAI (hyper.ai) هي شركة رائدة في مجال الذكاء الاصطناعي والحوسبة عالية الأداء في الصين.نحن ملتزمون بأن نصبح البنية التحتية في مجال علوم البيانات في الصين وتوفير موارد عامة غنية وعالية الجودة للمطورين المحليين. حتى الآن، لدينا:
* توفير عقد تنزيل محلية سريعة لأكثر من 1200 مجموعة بيانات عامة
* يتضمن أكثر من 300 برنامج تعليمي كلاسيكي وشائع عبر الإنترنت
* تفسير أكثر من 100 حالة بحثية من AI4Science
* دعم البحث عن أكثر من 500 مصطلح ذي صلة
* استضافة أول وثائق كاملة حول Apache TVM باللغة الصينية في الصين
قم بزيارة الموقع الرسمي لبدء رحلة التعلم الخاصة بك:
وأخيرًا، أوصي بنشاط المشاركة الأكاديمية!
تمت دعوة تشو زيي، باحث ما بعد الدكتوراه في معهد العلوم الطبيعية بجامعة شنغهاي جياو تونغ والمركز الوطني شنغهاي للرياضيات التطبيقية، إلى البث المباشر الثالث لـ Meet AI4S. انقر هنا لتحديد موعد لمشاهدة البث المباشر!
