HyperAIHyperAI
il y a 2 mois

Modèles d'images génératives comme modèles d'action

Mohit Shridhar; Yat Long Lo; Stephen James
Modèles d'images génératives comme modèles d'action
Résumé

Les modèles de diffusion pour la génération d'images ont été affinés afin de débloquer de nouvelles capacités telles que l'édition d'images et la synthèse de vues inédites. Peut-on débloquer de manière similaire les modèles de génération d'images pour le contrôle visuomoteur ? Nous présentons GENIMA, un agent de clonage comportemental qui affine Stable Diffusion pour « dessiner des actions articulaires » en tant que cibles sur des images RGB. Ces images sont ensuite alimentées dans un contrôleur qui mappe les cibles visuelles en une séquence de positions articulaires. Nous étudions GENIMA sur 25 tâches de manipulation RLBench et 9 tâches réelles du monde réel. Nous constatons que, en transposant les actions dans l'espace des images, les modèles de diffusion pré-entraînés sur Internet peuvent générer des politiques qui surpassent les approches visuomotrices d'avant-garde, notamment en termes de robustesse face aux perturbations scéniques et de généralisation à des objets inédits. Notre méthode est également compétitive avec les agents 3D, malgré l'absence de priorités telles que la profondeur, les points clés ou les planificateurs de mouvement.

Modèles d'images génératives comme modèles d'action | Articles de recherche récents | HyperAI