Nemotron-Personas-Brazil: Synthetische Daten für souveräne KI in Brasilien
Nemotron-Personas-Brazil ist ein offenes, synthetisches Datenset mit 6 Millionen künstlichen Personen, das speziell für die Entwicklung souveräner KI-Systeme in Brasilien konzipiert wurde. Es basiert auf echten statistischen Daten des brasilianischen Statistikamts IBGE und spiegelt die demografische, geografische und berufliche Vielfalt des Landes wider – mit über 200 Millionen Einwohnern, die in fünf Makroregionen leben. Im Gegensatz zu vielen globalen KI-Trainingsdaten, die stark auf Englisch und westliche Kontexte ausgerichtet sind, ist dieses Datenset in natürlicher brasilianischer Portugiesisch verfasst und berücksichtigt kulturelle Nuancen wie Lebensstile, Hobbys, soziale Normen und regionale Unterschiede. Jede Person enthält Attribute wie Alter, Geschlecht, Bildung, Beruf, Wohnort bis auf Gemeindeebene, sowie Lebensphasen wie Studium, Arbeitslosigkeit oder Pensionierung. Besonders hervorzuheben ist die Berücksichtigung von Mikro-Unternehmern und regionalen Berufen, was die wirtschaftliche Realität Brasiliens authentisch widerspiegelt. Das Datenset wurde mit Hilfe von NeMo Data Designer, NVIDIAs Plattform für kompoundes KI-gestütztes Datensynthese, entwickelt. Der Prozess nutzt strukturierte Generierung, Validierung und Wiederholung, um große, statistisch konsistente Datensätze zu erzeugen. Die synthetischen Personen sind vollständig anonym – es wird keine personenbezogene Identifikation verwendet, auch wenn Namen, Altersgruppen oder Berufe auf realen Verteilungen basieren. Somit ist das Datenset privatheitskonform und für kommerzielle Nutzung unter der CC BY 4.0-Lizenz frei verfügbar. Die Kooperation mit WideLabs, einem NVIDIA Inception-Partner mit Erfahrung in Regierungs- und regulierten KI-Anwendungen in Lateinamerika, stärkt die Relevanz und Anwendbarkeit des Datensets für lokale Entwickler und Forscher. Es ermöglicht nicht nur die Entwicklung von KI-Modellen, die brasilianische Sprache und Kultur authentisch erfassen, sondern unterstützt auch die Schaffung von „souveräner KI“ – also Technologien, die lokal kontrolliert, transparent und an nationale Bedürfnisse angepasst sind. Für Entwickler ist der Zugang über Hugging Face einfach: Ein einfacher Code-Call lädt das Datenset direkt in Projekte. Zudem wird eine erweiterte Version innerhalb von NeMo Data Designer verfügbar sein, die es ermöglicht, die Datensätze selbst zu generieren, anzupassen und zu erweitern. Industrieexperten begrüßen das Projekt als Meilenstein für die Globalisierung von KI-Daten. Es reduziert den Zugangsbarrieren für Entwickler in Schwellenländern und fördert eine vielfältigere, gerechtere KI-Entwicklung. Durch die Kombination von statistischer Genauigkeit, kultureller Tiefe und Open-Source-Verfügbarkeit wird Nemotron-Personas-Brazil zu einem zentralen Werkzeug für die nächste Generation von KI-Systemen in lateinamerikanischen Kontexten.
