日付

2年前

サイズ

56.03 MB

データセット構成

Paper URL

タグ

データセットの紹介

このデータセットは、2024 年にテンセントのシアトル人工知能研究所によって開始されたネットワークデータから自動的に整理された 10 億の異なる文字のコレクションです。これらの 10 億文字 (世界の総人口の約 13%) は、世界の知識の分散キャリアとして機能し、LLM にカプセル化されたほぼすべての視点を活用できるため、さまざまなシナリオ向けの多様な合成データの大規模な作成が容易になります。研究チームは、高品質の数学的および論理的推論の質問、指示 (つまり、ユーザープロンプト)、知識豊富なテキスト、ゲーム NPC、およびツール (機能) を大規模に合成する際の PERSONA HUB の使用例を実証することで、キャラクターがいかに多用途であるかを実証しています。 -ドリブンなデータ合成は、機能的でスケーラブルで柔軟性があり、使いやすいため、合成データの作成と実用化におけるパラダイムシフトを促進する可能性があり、LLM の研究開発に大きな影響を与える可能性があります。関連論文は「1,000,000,000 人のペルソナによる合成データ作成のスケーリング」

データセットの背景

Tencent のシアトル人工知能研究所は、大規模言語モデル (LLM) の複数の視点を活用して多様な合成データを作成する、新しいロール駆動型のデータ合成手法を開始しました。研究者らは、ネットワークデータから10億種類（世界総人口の約13%）の異なるキャラクターを自動的に選別する「ペルソナハブ」と呼ばれるシステムを立ち上げた。世界の知識を分散して伝達するこれらの役割は、LLM に含まれるほぼすべての視点に到達できるため、さまざまなシナリオ向けの多様な合成データを大規模に作成することが容易になります。この技術レポートでは、データセキュリティ、既存の LLM リーダーシップに対する脅威、仮想世界で現実社会をシミュレートする可能性など、ペルソナハブの使用から生じる可能性のある広範な影響と倫理的問題についても説明します。

PersonaHub.torrent

シーディング 1ダウンロード中 0完了 245総ダウンロード数 311

PersonaHub/
- README.md
  2.42 KB
- README.txt
  4.83 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用

Discordで議論

日付

2年前

サイズ

56.03 MB

データセット構成

Paper URL

タグ

データセットの紹介

データセットの背景

PersonaHub.torrent

シーディング 1ダウンロード中 0完了 245総ダウンロード数 311

PersonaHub/
- README.md
  2.42 KB
- README.txt
  4.83 KB

ToolACE 複合ツール学習対話データセット

2ヶ月前

Nemotron Personas France（フランス合成ペルソナデータセット）

2ヶ月前

CHIMERA一般推論合成データセット

4ヶ月前

Nemotron-Personas-Brazil ブラジル合成文字データセット

5ヶ月前

CL-bench コンテキスト学習評価ベンチマークデータセット

4ヶ月前

RoVid-X ロボットビデオ生成データセット

2ヶ月前

患者セグメンテーションデータセット

5ヶ月前

TransPhy3D 透明反射合成ビデオデータセット

5ヶ月前

Nemotron-Math-v2 数学推論データセット

5ヶ月前

TxT360-3efforts マルチタスク推論データセット

6ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

ペルソナ ハブ Web データから自動的にキュレーションされた 10 億の固有ペルソナのデータセット

データセットの紹介

データセットの背景

AIでAIを構築

HyperAI Newsletters

Command Palette

ペルソナ ハブ Web データから自動的にキュレーションされた 10 億の固有ペルソナのデータセット

データセットの紹介

データセットの背景

関連データセット

ToolACE 複合ツール学習対話データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

CHIMERA一般推論合成データセット

Nemotron-Personas-Brazil ブラジル合成文字データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

RoVid-X ロボット ビデオ生成データセット

患者セグメンテーションデータセット

TransPhy3D 透明反射合成ビデオデータセット

Nemotron-Math-v2 数学推論データセット

TxT360-3efforts マルチタスク推論データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

ペルソナ ハブ Web データから自動的にキュレーションされた 10 億の固有ペルソナのデータセット

データセットの紹介

データセットの背景

関連データセット

ToolACE 複合ツール学習対話データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

CHIMERA一般推論合成データセット

Nemotron-Personas-Brazil ブラジル合成文字データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

RoVid-X ロボット ビデオ生成データセット

患者セグメンテーションデータセット

TransPhy3D 透明反射合成ビデオデータセット

Nemotron-Math-v2 数学推論データセット

TxT360-3efforts マルチタスク推論データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

ToolACE 複合ツール学習対話データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

CHIMERA一般推論合成データセット

Nemotron-Personas-Brazil ブラジル合成文字データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

RoVid-X ロボット ビデオ生成データセット

患者セグメンテーションデータセット

TransPhy3D 透明反射合成ビデオデータセット

Nemotron-Math-v2 数学推論データセット

TxT360-3efforts マルチタスク推論データセット

関連データセット

ToolACE 複合ツール学習対話データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

CHIMERA一般推論合成データセット

Nemotron-Personas-Brazil ブラジル合成文字データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

RoVid-X ロボット ビデオ生成データセット

患者セグメンテーションデータセット

TransPhy3D 透明反射合成ビデオデータセット

Nemotron-Math-v2 数学推論データセット

TxT360-3efforts マルチタスク推論データセット

ペルソナハブ Web データから自動的にキュレーションされた 10 億の固有ペルソナのデータセット

ペルソナハブ Web データから自動的にキュレーションされた 10 億の固有ペルソナのデータセット

RoVid-X ロボットビデオ生成データセット

ペルソナハブ Web データから自動的にキュレーションされた 10 億の固有ペルソナのデータセット

RoVid-X ロボットビデオ生成データセット

RoVid-X ロボットビデオ生成データセット

RoVid-X ロボットビデオ生成データセット