Nemotron-Personas-Brazil: بيانات مُصممة مشتركة لذكاء اصطناعي يُمثّل الهوية البرازيلية مجموعة بيانات مفتوحة بحجم 6 ملايين شخصية اصطناعية، مبنية على توزيعات حقيقية من السكان في البرازيل، تُعدّ خطوة مهمة نحو بناء ذكاء اصطناعي وطني يُراعي التنوّع الثقافي واللغوي والجغرافي للبرازيل. تم إنشاء Nemotron-Personas-Brazil بالتعاون بين NVIDIA وWideLabs، وهي شركة عضو في برنامج NVIDIA Inception متخصصة في دعم تطبيقات الذكاء الاصطناعي في القطاعات الحكومية والمنظورة في أمريكا اللاتينية. يُعدّ هذا الإصدار جزءًا من مجموعة Nemotron-Personas التي تشمل بالفعل بيانات للولايات المتحدة، والهند، وسنغافورة، واليابان، لكنه يُميّز نفسه بتماسكه العميق مع واقع البرازيل من حيث التركيبة السكانية، والمناخ الاجتماعي، وطبيعة اللغة. المجموعة تضم شخصيات اصطناعية كامنة بالكامل، مكتوبة بلغة البرتغالية البرازيلية الطبيعية، وتتضمن معلومات دقيقة حول العمر، الجنس، التعليم، المهنة، الموقع الجغرافي (على مستوى المحافظات والمدن)، والاهتمامات اليومية، مثل الرياضة، الفنون، السفر، والهوايات. كل عنصر في الشخصية مُستمد من بيانات رسمية صادرة عن المعهد البرازيلي للإحصاء (IBGE)، لكن لا توجد أي معلومات تخص أشخاصًا حقيقيين، مما يضمن الخصوصية وفق مبدأ "الخصوصية بالتصميم". تم إنشاء البيانات باستخدام نظام NVIDIA NeMo Data Designer، وهو نظام مركب للذكاء الاصطناعي يُمكنه إنتاج بيانات اصطناعية موثوقة بحجم ضخم، مع إمكانية التحقق من الدقة وتصحيح الأخطاء تلقائيًا. يتيح هذا النظام للمطورين إمكانية توليد وتوسيع وتعديل شخصيات برازيلية حسب احتياجاتهم، مما يعزز من قابلية استخدام البيانات في تدريب نماذج ذكاء اصطناعي مخصصة. يُعدّ هذا الإصدار خطوة مهمة نحو بناء ذكاء اصطناعي "سيادي" في البرازيل، حيث يُمكن للمطورين المحليين والباحثين تدريب نماذج تفهم السياق المحلي بدقة، دون الاعتماد على بيانات أجنبية متحيزة لغويًا أو ثقافيًا. كما يُتيح للشركات والباحثين العالميين تحسين أداء نماذجهم في السياقات البرازيلية، مما يُعزز من دقة التفاعل وملاءمة النتائج. بما أن البيانات مُتاحة مجانًا تحت رخصة CC BY 4.0، فإن NVIDIA تُعزز من مبدأ التكافؤ في الوصول إلى البيانات عالية الجودة، وتُشجع على الابتكار المفتوح، خصوصًا في مناطق كانت تعاني من نقص في البيانات الموثوقة. يمكن تحميل البيانات مباشرة من منصة Hugging Face، وبدء استخدامها فورًا في مشاريع الذكاء الاصطناعي. كما يُشجع المطورون على الانضمام إلى المجتمع عبر منصة Discord لمشاركة الأفكار ومساهمة في تصميم بيانات مستقبلية. Nemotron-Personas-Brazil ليس مجرد مجموعة بيانات — بل هو أداة لبناء ذكاء اصطناعي يُمثّل البرازيل، بصدق، واحترامًا للتنوع، وبدون تحيّز.
يُقدّم "Nemotron-Personas-Brazil" مجموعة بيانات مفتوحة بترخيص CC BY 4.0 تضم 6 ملايين شخصية اصطناعية مُصممة خصيصًا لتمثيل التنوّع السكاني والثقافي في البرازيل، ضمن مبادرة لبناء ذكاء اصطناعي مُحليّ وذو سيادة. تم تطوير هذه البيانات بالتعاون مع شركة ويد لابز، عضو برنامج NVIDIA Inception، بهدف تمكين الباحثين والمبرمجين البرازيليين من بناء أنظمة ذكاء اصطناعي تعكس الواقع المحلي بدقة. تم بناء هذه الشخصية الاصطناعية باستخدام منصة NeMo Data Designer من NVIDIA، وهي نظام مركب يعتمد على الذكاء الاصطناعي لإنشاء بيانات اصطناعية موثوقة وقابلة للتوثيق. تم تأسيس كل شخصية على بيانات رسمية من المعهد البرازيلي للإحصاءات (IBGE)، بما في ذلك التوزيعات السكانية، والمهن، والمواقع الجغرافية، والمستويات التعليمية، والمرحلة العمرية، مما يضمن تمثيلاً دقيقًا للتنوع في البرازيل، التي تضم أكثر من 200 مليون نسمة في خمس مناطق جغرافية رئيسية. تتميز الشخصيات بكتابة طبيعية بالبرتغالية البرازيلية، وتشمل تفاصيل ثقافية مثل الهوايات، والاهتمامات، والطموحات، والمهارات، مع مراعاة السمات الاجتماعية والثقافية المميزة للبرازيل، مثل تفضيلات الفنون، والرياضة، والسفر، والاتصالات اليومية. كما تم تضمين مهن متنوعة، بما في ذلك صغار المُEntrepreneurs والحرف اليدوية المحلية، لضمان تمثيل دقيق للحياة المهنية في مختلف المناطق. يُعدّ هذا المشروع مثالاً على "الخصوصية بتصميم"؛ إذ لا يحتوي أي عنصر من البيانات على معلومات شخصية مُعرّفة، ولا يرتبط بأي فرد حقيقي، سواء حي أو متوفى. كل شخصية مُصاغة اصطناعيًا، مع الحفاظ على التوزيعات الإحصائية الحقيقية، مما يسمح بتدريب النماذج على أنماط ثقافية حقيقية دون مخاطر على الخصوصية. يُعدّ Nemotron-Personas-Brazil جزءًا من مجموعة Nemotron-Personas التي تشمل بالفعل بيانات مماثلة للولايات المتحدة، والهند، وسنغافورة، واليابان، لكنه يُميّز نفسه بتركيزه على السياق البرازيلي الفريد. يُمكن للباحثين والمبرمجين في البرازيل، وكذلك المطورين العالميين، استخدام هذه البيانات لتحسين أداء النماذج في السياقات البرازيلية، سواء من حيث اللغة أو الثقافة أو التفاعل الاجتماعي. بفضل الترخيص المفتوح، يُمكن لأي شخص الوصول إلى هذه البيانات مجانًا عبر Hugging Face، مما يُعزز من مفهوم "الذكاء الاصطناعي المُحلي" ويقلل الحواجز التقنية والمالية أمام الباحثين في مناطق غير مُستفادة بالكامل من تقنيات الذكاء الاصطناعي. يُعدّ هذا الإطلاق خطوة مهمة نحو بناء أنظمة ذكاء اصطناعي عادلة، شفافة، وقابلة للتوسع، تُراعي التنوّع الثقافي واللغوي، وتدعم الابتكار في البرازيل والمنطقة اللاتينية بأكملها.
