HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA、ブラジル人向け合成パーソナデータ「Nemotron-Personas-Brazil」をオープン公開

NVIDIAは、ブラジルの言語・文化・人口構成を反映した合成データセット「Nemotron-Personas-Brazil」を公開した。これは、600万件の完全に合成された人物データから構成され、ブラジル統計局(IBGE)の公式人口調査・労働統計に基づいて作成された。実在の個人を含まず、すべての属性が統計的に現実の分布を再現しており、プライバシー保護が徹底されている。データはブラジルポルトガル語で記述され、年齢、性別、教育、職業、居住地、趣味、価値観、ライフステージといった属性を含む。 このデータセットは、NVIDIAの合成データ生成システム「NeMo Data Designer」を活用して構築され、地域ごとの多様性(5つの主要地域)、職業の多様性(マイクロ起業家や地方の伝統職も含む)、人生の各段階(学生、失業、退職)を正確に反映。また、芸術、スポーツ、旅行といった文化的な嗜好も自然な言語表現で再現されている。 Nemotron-Personas-Brazilは、CC BY 4.0ライセンスで公開されており、開発者や研究者が自由に利用でき、商用利用も可能。ブラジル国内のAI開発者や政府機関、規制産業向けのAIシステム構築を支援する「主権AI(Sovereign AI)」の実現に貢献する。また、グローバルな開発者も、ブラジル語や文化に適したAIモデルの性能向上に活用できる。 同データセットは、NVIDIAの「Nemotron-Personas」シリーズの一環として、アメリカ、日本、インド、シンガポールに続く第5弾。WideLabs(NVIDIA Inceptionメンバ)との共同開発により、ラテンアメリカにおけるAIの規制対応実績も反映されている。 今後、NeMo Data Designer内でも拡張版が提供される予定で、開発者は自らのデータパイプラインでこのデータを生成・修正・拡張できる。AIモデルの文化的・言語的適合性を高めるための重要な基盤として、データの多様性と倫理的設計を重視した、オープンで持続可能なAI開発の促進が期待される。

関連リンク

NVIDIA、ブラジル人向け合成パーソナデータ「Nemotron-Personas-Brazil」をオープン公開 | 人気の記事 | HyperAI超神経