Tutoriel En Ligne | L'équipe De l'Université Des Sciences Et Technologies De Hong Kong Publie En Open Source Le Premier Framework Déterministe De Profondeur Vidéo DVD, Atteignant Des Résultats De Pointe Sans Aucun exemple.

L'estimation de profondeur est l'une des tâches les plus fondamentales et critiques en vision 3D. De la conduite autonome à la navigation robotique, en passant par la réalité augmentée/virtuelle, les jumeaux numériques et la génération de contenu vidéo, les systèmes doivent comprendre avec précision les relations spatiales entre les objets et la caméra dans une scène. Cependant, l'estimation de profondeur vidéo se heurte depuis longtemps à une contradiction majeure : les méthodes génératives, représentées par les modèles de diffusion, possèdent de solides capacités de compréhension sémantique et peuvent inférer des structures de scène complexes à partir d'une grande quantité de données pré-entraînées, mais leurs résultats sont souvent affectés par des processus d'échantillonnage aléatoire, ce qui les rend sujettes à des illusions géométriques, à des dérives d'échelle et à une instabilité temporelle ; quant aux méthodes discriminatives traditionnelles, bien que présentant un meilleur déterminisme, elles dépendent fortement de données étiquetées à grande échelle, ce qui entraîne des coûts d'entraînement élevés et une capacité de généralisation limitée dans les scènes complexes.

Pour remédier à ce problème majeur du secteur, l'équipe de l'Université des sciences et technologies de Hong Kong (Guangzhou) a proposé le DVD (estimation déterministe de la profondeur vidéo).Pour la première fois, un modèle de diffusion vidéo pré-entraîné a été transformé de manière déterministe en un estimateur de profondeur vidéo à propagation directe unique.Contrairement aux modèles de diffusion traditionnels qui nécessitent plusieurs itérations pour générer des résultats, le DVD permet de prédire la profondeur en une seule étape. Ceci améliore considérablement l'efficacité de l'inférence et élimine complètement le problème d'illusion géométrique dû à l'échantillonnage aléatoire, garantissant ainsi la cohérence temporelle et la stabilité structurelle des séquences vidéo.

Plus important encore,Le DVD a permis de préserver avec succès une grande quantité de connaissances géométriques et sémantiques préalables contenues dans le modèle vidéo de base.Grâce à des mécanismes d'ancrage structurel innovants et à la technologie de correction de variété latente (LMR), le modèle peut récupérer avec précision les contours des objets, les textures à haute fréquence et les détails de mouvement tout en maintenant la stabilité globale de la scène, améliorant ainsi considérablement la fidélité structurelle des cartes de profondeur.

Dans de nombreux tests de référence accessibles au public, les performances zéro échantillon du DVD atteignent des niveaux de pointe (SOTA).De plus, elle a atteint un niveau de performance exceptionnel avec seulement 367 000 images de données d'entraînement, soit une réduction d'environ 163 fois par rapport aux 60 millions d'images requises par les méthodes discriminatives classiques. Ceci confirme non seulement l'énorme potentiel des modèles génératifs de base pour la compréhension géométrique, mais ouvre également une voie technique entièrement nouvelle pour la perception vidéo 3D de haute précision et à faible coût.

Pour permettre aux développeurs de découvrir rapidement les DVD, HyperAI a lancé un Notebook facile à déployer, simplifiant ainsi l'accès à des modèles de pointe en un clic. ⬇️

Exécutez en ligne :https://go.hyper.ai/w8kUO

Adresse open source :https://github.com/EnVision-Research/DVD

Plus de tutoriels en ligne :

https://hyper.ai/notebooks

Essai de démonstration

1. Après avoir accédé à la page d'accueil d'hyper.ai, sélectionnez la page « Tutoriels » ou cliquez sur « Voir plus de tutoriels », sélectionnez « DVD : Estimation déterministe de la profondeur vidéo basée sur des a priori génératifs », puis cliquez sur « Exécuter ce tutoriel ».

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA RTX 5090 » et « PyTorch », puis cliquez sur « Continuer l'exécution de la tâche ».

4. Attendez que les ressources soient allouées. Une fois que le statut passe à « En cours d'exécution », cliquez sur « Ouvrir l'espace de travail » pour accéder à l'espace de travail Jupyter.

Affichage des effets

1. Une fois la page redirigée, cliquez sur le fichier README à gauche, puis sur « Exécuter » en haut.

2. Une fois le processus terminé, cliquez sur l'adresse API à droite pour ouvrir l'interface de démonstration.

HyperAI

Tutoriel En Ligne | L'équipe De l'Université Des Sciences Et Technologies De Hong Kong Publie En Open Source Le Premier Framework Déterministe De Profondeur Vidéo DVD, Atteignant Des Résultats De Pointe Sans Aucun exemple.

il y a 4 jours

Information

Intelligence Artificielle

Apprentissage Automatique

Apprentissage Profond

Vision Par Ordinateur

Pour permettre aux développeurs de découvrir rapidement les DVD, HyperAI a lancé un Notebook facile à déployer, simplifiant ainsi l'accès à des modèles de pointe en un clic. ⬇️

Exécutez en ligne :https://go.hyper.ai/w8kUO

Adresse open source :https://github.com/EnVision-Research/DVD

Plus de tutoriels en ligne :

https://hyper.ai/notebooks

Essai de démonstration

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA RTX 5090 » et « PyTorch », puis cliquez sur « Continuer l'exécution de la tâche ».

Affichage des effets

1. Une fois la page redirigée, cliquez sur le fichier README à gauche, puis sur « Exécuter » en haut.

2. Une fois le processus terminé, cliquez sur l'adresse API à droite pour ouvrir l'interface de démonstration.

Associé Actualités

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Tutoriel En Ligne | Un Ordinateur Portable De 16 Go Atteint Des Performances De Près De 26 Milliards De MoE : Gemma 4 12B, Basé Sur Une Architecture Innovante Pour Le Traitement Unifié Des Modalités texte/image/son

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Tutoriels En Ligne | Petite Taille, Grande Puissance De Code : Qwen3.6-27B Atteint Des Capacités De Programmation De Niveau Haut De Gamme

Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.

HyperAI

Tutoriel En Ligne | L'équipe De l'Université Des Sciences Et Technologies De Hong Kong Publie En Open Source Le Premier Framework Déterministe De Profondeur Vidéo DVD, Atteignant Des Résultats De Pointe Sans Aucun exemple.

il y a 4 jours

Information

Intelligence Artificielle

Apprentissage Automatique

Apprentissage Profond

Vision Par Ordinateur

Pour permettre aux développeurs de découvrir rapidement les DVD, HyperAI a lancé un Notebook facile à déployer, simplifiant ainsi l'accès à des modèles de pointe en un clic. ⬇️

Exécutez en ligne :https://go.hyper.ai/w8kUO

Adresse open source :https://github.com/EnVision-Research/DVD

Plus de tutoriels en ligne :

https://hyper.ai/notebooks

Essai de démonstration

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA RTX 5090 » et « PyTorch », puis cliquez sur « Continuer l'exécution de la tâche ».

Affichage des effets

1. Une fois la page redirigée, cliquez sur le fichier README à gauche, puis sur « Exécuter » en haut.

2. Une fois le processus terminé, cliquez sur l'adresse API à droite pour ouvrir l'interface de démonstration.

Associé Actualités

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Tutoriel En Ligne | Un Ordinateur Portable De 16 Go Atteint Des Performances De Près De 26 Milliards De MoE : Gemma 4 12B, Basé Sur Une Architecture Innovante Pour Le Traitement Unifié Des Modalités texte/image/son

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Tutoriels En Ligne | Petite Taille, Grande Puissance De Code : Qwen3.6-27B Atteint Des Capacités De Programmation De Niveau Haut De Gamme

Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.

Command Palette

Tutoriel En Ligne | L'équipe De l'Université Des Sciences Et Technologies De Hong Kong Publie En Open Source Le Premier Framework Déterministe De Profondeur Vidéo DVD, Atteignant Des Résultats De Pointe Sans Aucun exemple.

Essai de démonstration

Affichage des effets

Command Palette

Tutoriel En Ligne | L'équipe De l'Université Des Sciences Et Technologies De Hong Kong Publie En Open Source Le Premier Framework Déterministe De Profondeur Vidéo DVD, Atteignant Des Résultats De Pointe Sans Aucun exemple.

Essai de démonstration

Affichage des effets

Associé Actualités

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Tutoriel En Ligne | Un Ordinateur Portable De 16 Go Atteint Des Performances De Près De 26 Milliards De MoE : Gemma 4 12B, Basé Sur Une Architecture Innovante Pour Le Traitement Unifié Des Modalités texte/image/son

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Tutoriels En Ligne | Petite Taille, Grande Puissance De Code : Qwen3.6-27B Atteint Des Capacités De Programmation De Niveau Haut De Gamme

Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.

Command Palette

Tutoriel En Ligne | L'équipe De l'Université Des Sciences Et Technologies De Hong Kong Publie En Open Source Le Premier Framework Déterministe De Profondeur Vidéo DVD, Atteignant Des Résultats De Pointe Sans Aucun exemple.

Essai de démonstration

Affichage des effets

Associé Actualités

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Tutoriel En Ligne | Un Ordinateur Portable De 16 Go Atteint Des Performances De Près De 26 Milliards De MoE : Gemma 4 12B, Basé Sur Une Architecture Innovante Pour Le Traitement Unifié Des Modalités texte/image/son

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Tutoriels En Ligne | Petite Taille, Grande Puissance De Code : Qwen3.6-27B Atteint Des Capacités De Programmation De Niveau Haut De Gamme

Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.

Associé Actualités

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Tutoriel En Ligne | Un Ordinateur Portable De 16 Go Atteint Des Performances De Près De 26 Milliards De MoE : Gemma 4 12B, Basé Sur Une Architecture Innovante Pour Le Traitement Unifié Des Modalités texte/image/son

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Tutoriels En Ligne | Petite Taille, Grande Puissance De Code : Qwen3.6-27B Atteint Des Capacités De Programmation De Niveau Haut De Gamme

Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.

Associé Actualités

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Tutoriel En Ligne | Un Ordinateur Portable De 16 Go Atteint Des Performances De Près De 26 Milliards De MoE : Gemma 4 12B, Basé Sur Une Architecture Innovante Pour Le Traitement Unifié Des Modalités texte/image/son

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Tutoriels En Ligne | Petite Taille, Grande Puissance De Code : Qwen3.6-27B Atteint Des Capacités De Programmation De Niveau Haut De Gamme

Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.