il y a 4 jours

Une revue sur les modèles Vision-Langage-Action : Une perspective de tokenisation des actions

Yifan Zhong, Fengshuo Bai, Shaofei Cai, Xuchuan Huang, Zhang Chen, Xiaowei Zhang, Yuanfei Wang, Shaoyang Guo, Tianrui Guan, Ka Nam Lui, Zhiquan Qi, Yitao Liang, Yuanpei Chen, Yaodong Yang

Voir les détails de l'article View Code

Une revue sur les modèles Vision-Langage-Action : Une perspective de tokenisation des actions

Résumé

Les avancées remarquables des modèles de fondation pour la vision et le langage dans la compréhension, le raisonnement et la génération multimodaux ont suscité des efforts croissants pour étendre cette intelligence au monde physique, favorisant ainsi l'épanouissement des modèles vision-langue-action (VLA). Malgré les approches apparemment diverses, nous constatons que les modèles VLA actuels peuvent être unifiés sous un cadre unique : les entrées visuelles et linguistiques sont traitées par une série de modules VLA, produisant une chaîne de jetons d'action qui encodent progressivement des informations plus ancrées et exécutoires, aboutissant finalement à la génération d'actions exécutables. Nous déterminons également que le principal choix de conception distinguant les modèles VLA réside dans la formulation des jetons d'action, qui peut être catégorisée en description linguistique, code, possibilité d'utilisation (affordance), trajectoire, état cible, représentation latente, action brute et raisonnement. Cependant, il manque encore une compréhension globale des jetons d'action, ce qui freine considérablement le développement efficace des modèles VLA et obscurcit les orientations futures. Par conséquent, cette revue vise à catégoriser et interpréter les recherches existantes sur les modèles VLA à travers l'angle de la tokenisation d'action, à distiller les forces et les limites de chaque type de jeton, et à identifier les domaines d'amélioration. Grâce à cette revue systématique et analyse, nous proposons une perspective synthétique sur l'évolution plus large des modèles VLA, soulignons des directions prometteuses mais peu explorées, et contribuons à guider les recherches futures dans l'espoir d'approcher davantage l'intelligence polyvalente.