Command Palette
Search for a command to run...
WEAVE : Libérer et évaluer la compréhension et la génération imbriquées dans le contexte

Résumé
Les avancées récentes dans les modèles multimodaux unifiés (UMMs) ont permis des progrès remarquables en compréhension et génération visuelles. Toutefois, les jeux de données et benchmarks existants se concentrent principalement sur des interactions à tour unique, ce qui ne reflète pas la nature multi-tours et dépendante du contexte des activités réelles de création et d’édition d’images. Pour combler cet écart, nous présentons WEAVE, la première suite dédiée à la compréhension et à la génération intermodale imbriquée en contexte. Notre suite se compose de deux composants complémentaires. WEAVE-100k est un grand jeu de données comprenant 100 000 échantillons imbriqués, couvrant plus de 370 000 échanges de dialogue et 500 000 images, et englobant des tâches de compréhension, d’édition et de génération nécessitant un raisonnement sur le contexte historique. WEAVEBench est un benchmark annoté par des humains, comprenant 100 tâches basées sur 480 images, et mettant en œuvre un cadre d’évaluation hybride par juges VLM fondé à la fois sur l’image de référence et sur la combinaison de l’image d’origine avec les instructions d’édition, permettant d’évaluer les capacités des modèles en génération multi-tours, mémoire visuelle et raisonnement sur les connaissances du monde dans des domaines variés. Les expérimentations démontrent que l’entraînement sur WEAVE-100k permet aux modèles de développer des capacités de compréhension visuelle, d’édition d’images et de collaboration entre compréhension et génération. En outre, il favorise l’émergence de capacités de mémoire visuelle chez les UMMs, tandis que les évaluations approfondies sur WEAVEBench mettent en évidence les limites persistantes et les défis actuels des approches existantes en génération et édition d’images contextuelles multi-tours. Nous croyons que WEAVE offre une perspective et une base solide pour l’étude de la compréhension et de la génération intermodale imbriquée en contexte au sein de la communauté multimodale.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.