HyperAIHyperAI
il y a 2 mois

ClickDiff : Clic pour induire une carte de contact sémantique pour la génération de prises contrôlées avec des modèles de diffusion

Li, Peiming ; Wang, Ziyi ; Liu, Mengyuan ; Liu, Hong ; Chen, Chen
ClickDiff : Clic pour induire une carte de contact sémantique pour la génération de prises contrôlées avec des modèles de diffusion
Résumé

La génération de prises vise à créer des interactions complexes entre la main et un objet spécifique. Bien que les approches traditionnelles pour la génération de mains se soient principalement concentrées sur la visibilité et la diversité sous contraintes de scène, elles tendent à négliger les interactions main-objet détaillées telles que les contacts, ce qui entraîne des prises inexactes et indésirables. Pour relever ces défis, nous proposons une tâche de génération de prises contrôlable et introduisons ClickDiff, un modèle de génération conditionnelle contrôlable qui utilise une carte de contact sémantique détaillée (SCM). En particulier lors de la synthèse de prises interactives, cette méthode permet le contrôle précis de la synthèse des prises grâce à une carte de contact sémantique soit spécifiée par l'utilisateur, soit prédite algorithmiquement. Plus précisément, afin d'optimiser l'utilisation des contraintes de supervision des contacts et de modéliser avec précision la structure physique complexe des mains, nous proposons un cadre dual de génération. Dans ce cadre, le module conditionnel sémantique génère des cartes de contact raisonnables basées sur des informations de contact détaillées, tandis que le module conditionnel aux contacts utilise ces cartes en conjonction avec les nuages de points d'objets pour générer des prises réalistes. Nous évaluons les critères pertinents pour la génération contrôlée de prises. Les expériences de génération unimanuelle et bimanuelle sur les jeux de données GRAB et ARCTIC confirment la validité de notre méthode proposée, démontrant l'efficacité et la robustesse de ClickDiff, même avec des objets jamais vus auparavant. Notre code est disponible à l'adresse suivante : https://github.com/adventurer-w/ClickDiff.

ClickDiff : Clic pour induire une carte de contact sémantique pour la génération de prises contrôlées avec des modèles de diffusion | Articles de recherche récents | HyperAI