Command Palette
Search for a command to run...
Comprendre informe-t-il la génération dans les modèles multimodaux unifiés ? De l’analyse à la voie d’avenir
Yuwei Niu Weiyang Jin Jiaqi Liao Chaoran Feng Peng Jin Bin Lin Zongjian Li Bin Zhu Weihao Yu Li Yuan

Résumé
Les dernières années ont vu des progrès significatifs dans le domaine des modèles multimodaux unifiés, mais une question fondamentale demeure : la compréhension informe-t-elle réellement la génération ? Pour explorer cette question, nous introduisons UniSandbox, un cadre d’évaluation déconnecté associé à des jeux de données synthétiques contrôlés, permettant d’éviter le fuite de données et d’assurer une analyse détaillée. Nos résultats révèlent un écart important entre la compréhension et la génération, principalement manifeste sur deux dimensions clés : la génération de raisonnement et le transfert de connaissance. Plus précisément, pour les tâches de génération de raisonnement, nous observons que l’incorporation explicite d’un Chaîne de Pensée (Chain-of-Thought, CoT) dans le module de compréhension permet de combler efficacement cet écart, et démontrons par ailleurs qu’une approche d’auto-entraînement peut intégrer avec succès cette capacité, permettant ainsi un raisonnement implicite lors de la génération. En outre, pour les tâches de transfert de connaissance, nous constatons que la CoT facilite le processus de génération en aidant à récupérer les connaissances nouvellement acquises, et découvrons également que les architectures basées sur les requêtes présentent intrinsèquement des propriétés latentes similaires à celles de la CoT, influençant ce transfert. UniSandbox fournit des aperçus préliminaires pour concevoir de futurs architectures unifiées et stratégies d’entraînement capables de combler réellement l’écart entre compréhension et génération. Le code et les données sont disponibles à l’adresse suivante : https://github.com/PKU-YuanGroup/UniSandBox
Dépôts de code
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.