Ensemble De Données De Génération Visuelle d'événements Multi-étapes Envision
Envision est un ensemble de données de paires texte-image multiple publié par le Laboratoire d'intelligence artificielle de Shanghai en 2025. L'article de recherche associé s'intitule «Envision : Évaluation comparative de la compréhension et de la génération unifiées pour une meilleure compréhension des processus causaux du mondeL'objectif est de tester la capacité du modèle à comprendre la causalité et à générer des événements à plusieurs étapes dans des situations réelles.
L'ensemble de données comprend 1 000 séquences d'événements et 4 000 amorces textuelles en quatre étapes, couvrant six grands domaines : les sciences naturelles et les sciences humaines/l'histoire. Les séquences d'événements proviennent de manuels et de ressources en ligne, sont sélectionnées par des experts, puis générées et affinées par GPT-4o afin de former des amorces narratives présentant des chaînes causales claires et une structure progressive.
Composition des données :
- Couverture thématique (6 catégories au total)
- Sciences naturelles (75%) : Physique, Chimie, Biologie, Météorologie, Géographie
- Histoire et culture (25%)
- Type de structure causale
- Causalité continue : changements continus au sein d'une même scène spatiale, applicable aux processus physiques et chimiques fins.
- Causalité discrète : sauts à travers les étapes du temps et de l’espace, applicable à l’évolution géologique, au cycle de vie et aux événements historiques.

Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.