HyperAI

Décrivez N'importe Quoi Modèle De Démonstration

Aperçu du projet

Étoiles GitHub

Le modèle DAM (Describe Anything Model) est un modèle innovant de description d'images et de vidéos, développé conjointement par NVIDIA, les équipes de l'UC Berkeley et de l'UCSF, et publié en 2025. Ce modèle peut générer des descriptions détaillées basées sur des zones spécifiées par l'utilisateur (points, cadres, gribouillis ou masques). Pour les contenus vidéo, il suffit d'annoter la zone sur n'importe quelle image pour obtenir une description complète. Les résultats de l'étude sont les suivants :Décrivez n'importe quoi : sous-titrage détaillé et localisé d'images et de vidéos".

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

Exemples de projets

Exemples de projets

Étapes de course

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Une fois que vous entrez sur la page Web, vous pouvez interagir avec le modèle

La taille de l'image ne doit pas dépasser 5 Mo, la durée de la vidéo ne doit pas dépasser 20 secondes et la taille de la vidéo ne doit pas dépasser 5 Mo, sous peine de ralentir le modèle ou de signaler une erreur. Veuillez sélectionner la zone de description de manière raisonnable.

Ce tutoriel fournit deux tests de modules : les modules mode image et mode vidéo.

Les fonctions de chaque module sont les suivantes :

Mode image

Mode vidéo

Échange et discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Merci à l'utilisateur Github zhangjunchang  Pour le déploiement de ce tutoriel, les informations de référence du projet sont les suivantes :

@article{lian2025describe,
  title={Describe Anything: Detailed Localized Image and Video Captioning}, 
  author={Long Lian and Yifan Ding and Yunhao Ge and Sifei Liu and Hanzi Mao and Boyi Li and Marco Pavone and Ming-Yu Liu and Trevor Darrell and Adam Yala and Yin Cui},
  journal={arXiv preprint arXiv:2504.16072},
  year={2025}
} GitHub Stars arXiv