MultiEdit マルチモーダル画像編集データセット
MultiEdit は、inclusionAI がニューサウスウェールズ大学および香港大学と共同で 2025 年にリリースした包括的で大規模な指示ベースの画像編集データセットです。MultiEdit: 多様で困難なタスクにおける指示ベースの画像編集の進化」は、複雑かつ多様な画像編集タスクにおけるモデルの機能を向上させることを目的としています。
このデータセットには約107,000のサンプルが含まれており、6つの主要な編集タスクと56の編集タイプのサブカテゴリ(オブジェクト参照編集、人物参照編集、テキストおよびインターフェース要素の調整、パースペクティブ変換、スタイル転送など)をカバーしています。データは、大規模なマルチモーダルモデル(GPT-4oやGPT-Image-1など)による生成プロセスから生成されています。このアプローチは、指示構築、画像生成、品質スクリーニングを組み合わせることで、編集サンプルの関連性と一貫性を確保します。データ構造は、「ソース画像 - 編集指示 - 編集結果」の3つ組と、編集カテゴリとソースに関する情報で構成されています。
データ構成
- オブジェクト参照編集
- 色、形状、スケール、位置など、特定のオブジェクトのプロパティを変更するために使用されます。
- 4 種類の編集が含まれており、サンプルの合計は 10,051 個 (トレーニング セットに 9,851 個、テスト セットに 200 個) です。
- 人物参照編集
- 画像内の人物の姿勢、服装、髪型、肌の色、体型などを編集します。
- 5 種類の編集が含まれており、サンプルの合計は 7,141 個 (トレーニング セットに 6,891 個、テスト セットに 250 個) です。
- テキスト編集
- フォント スタイル、テキスト コンテンツ、表示媒体、色など、画像内のテキスト要素を変更します。
- 4 種類の編集が含まれており、合計 4,060 個のサンプル (トレーニング セットに 3,860 個、テスト セットに 200 個) があります。
- GUI編集
- iOS、Android、Web インターフェイスを含むグラフィカル ユーザー インターフェイス (GUI) 要素のアイコン プロパティを編集し、メディアを表示するために使用されます。
- 2 種類の編集が含まれており、サンプルの合計は 2,880 個 (トレーニング セットに 2,780 個、テスト セットに 100 個) です。
- ビュー編集
- 人物、ランドマーク、一般的なオブジェクトなど、画像の主題のさまざまな視点を生成します。
- 3 種類の編集が含まれており、サンプルの合計は 28,205 個 (トレーニング セットに 28,055 個、テスト セットに 150 個) です。
- スタイル転送
- 古典的な芸術形式から現代のデジタル美学まで、画像を 38 種類のアート スタイルに変換します。
- 38 種類の編集タイプと合計 56,297 個のサンプル (トレーニング セットに 55,097 個、テスト セットに 200 個) が含まれています。
マルチエディット.torrent
シーディング 1ダウンロード中 0ダウンロード完了 1総ダウンロード数 2