Envision マルチステージイベントビジュアル生成データセット
Envisionは、上海人工知能研究所が2025年に公開した複数画像テキストペアデータセットです。関連する研究論文のタイトルは「エンビジョン:因果世界プロセスの洞察のための統合理解と生成のベンチマーク目的は、現実世界の状況で因果関係を理解し、多段階のイベントを生成するモデルの能力をテストすることです。
このデータセットには、自然科学と人文科学/歴史の6つの主要分野を網羅する1,000のイベントシーケンスと4,000の4段階テキストプロンプトが含まれています。イベント資料は教科書やオンラインリソースから収集され、専門家によって選定され、GPT-4oによって生成・洗練され、明確な因果関係と段階的な構造を持つ物語プロンプトを形成しています。
データ構成:
- 対象分野(計6カテゴリー)
- 自然科学(75%):物理学、化学、生物学、気象学、地理学
- 歴史と文化(25%)
- 因果構造型
- 連続的な因果関係: 同じ空間シーン内での連続的な変化。細かい物理的および化学的プロセスに適用されます。
- 離散的因果関係: 時間と空間の段階を飛び越え、地質学的進化、ライフサイクル、歴史的出来事に適用されます。
