Envision 多阶段事件视觉生成数据集
Envision 是由上海人工智能实验室于 2025 年发布的一个多图像文本对数据集,相关论文成果为「Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights」,旨在测试模型在真实世界事件中的因果理解与多阶段生成能力。
数据集共包含 1,000 个事件序列与 4,000 条四阶段文本提示,涵盖自然科学与人文历史六大领域。事件素材来自教材与在线资料,经专家筛选并由 GPT-4o 生成与润色,形成具备清晰因果链与阶段递进结构的叙事提示。
数据构成:
- 学科覆盖(共 6 类)
- 自然科学(占 75%):物理、化学、生物、气象、地理
- 历史与文化(占 25%)
- 因果结构类型
- 连续型因果:同一空间场景中连续变化,适用于细粒度物理与化学过程
- 离散型因果:跨时空阶段跳跃,适用于地质演化、生命周期、历史事件
