Command Palette
Search for a command to run...
Text-to-Image-2M テキスト画像変換トレーニングデータセット
Text-to-Image-2Mは、テキスト画像変換モデルの微調整を目的として設計された、高品質なテキストと画像のペアからなるデータセットです。既存の公開データセットには、画像理解データセット、非公式に収集されたデータセット、タスク固有のデータセット、サイズ制限など、多くの制約があります。これらの課題に対処するため、チームは既存の高品質なデータセットと高度なテキスト画像変換モデルおよびキャプション生成モデルを組み合わせ、強化することで、Text-to-Image-2Mデータセットを作成しました。
データセットには約 200 万のサンプルが含まれており、2 つのコア サブセット (data_512_2M (512×512 解像度の画像 200 万枚と注釈) と data_1024_10K (10,000 枚の 1024×1024 高解像度の画像と注釈) に分かれており、さまざまな精度要件を持つモデル トレーニングに柔軟なオプションを提供します。
データ構成:
- データ_512_2M:
- LLaVA-next 微調整データセット(約70万サンプル、精度向上のためQwen2-VLでテキストを再生成)
- LLaVA 事前学習済みデータセット(約 500,000 サンプル、画像は Flux-dev モデルによって生成され、元のテキスト記述は保持されます)
- ProGamerGov 合成データセット (約 90 万サンプル、中央切り取り、妥当性フィルタリング済み)
- GPT-4o 生成データセット (100,000 サンプル、GPT-4o によって設計されたテキスト、Flux-dev によって生成された画像)
- データ_1024_10K:
- GPT-4oで生成されたテキストとFlux-devモデルでレンダリングされた画像を含む10,000枚の高解像度画像が含まれており、詳細が豊富な複雑なシーンに焦点を当てています。