Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.

À mesure que les modèles de langage visuel (MLV) évoluent vers les agents, l'interaction multimodale et les tâches du monde réel, la « compréhension des images » n'est plus l'objectif final ; il s'agit désormais de « localiser précisément la cible ». Ceci s'applique à la détection d'objets à vocabulaire ouvert, au fonctionnement des interfaces d'agents GUI, à la compréhension de documents et à la perception de l'environnement dans les systèmes de robotique et de conduite autonome.Tous ces facteurs imposent des exigences de plus en plus élevées aux capacités d'ancrage visuel.

Cependant, les modèles de langage visuels dominants actuels adoptent généralement un schéma de « génération de jetons de coordonnées » pour les tâches de localisation. Ce schéma consiste à diviser un cadre de délimitation bidimensionnel en plusieurs jetons de coordonnées unidimensionnels, puis à les générer et à les décoder un par un. Cette approche peine non seulement à maintenir la cohérence de la géométrie interne du cadre de délimitation, mais aussi…De plus, le mécanisme de génération séquentielle strict limite la vitesse de raisonnement.Lorsqu'un modèle doit traiter simultanément un grand nombre de cibles, il est souvent difficile d'équilibrer l'efficacité et la précision de la localisation.

En réponse à ce goulot d'étranglement persistant,NVIDIA a récemment rendu open source un nouveau membre de la série Eagle VLM : LocateAnything-3B.Il s'agit d'un modèle de localisation visuelle du langage comportant 3 milliards de paramètres, prenant en charge diverses tâches telles que la détection d'objets à vocabulaire ouvert, la localisation d'expressions de pointeur, la localisation de texte OCR, la localisation d'éléments d'interface graphique et le pointage de cibles dans les images et les vidéos, dans le but de construire un cadre unifié de localisation et de détection visuelles.

L'innovation majeure de LocateAnything-3B réside dans un nouveau mécanisme appelé décodage par boîtes parallèles (PBD). Contrairement aux méthodes traditionnelles qui génèrent les jetons de coordonnées un par un,PBD peut prédire simultanément et en parallèle des éléments géométriques tels que des boîtes englobantes et des points clés, comme une structure complète.Cette conception préserve non seulement la cohérence géométrique à l'intérieur du cadre de délimitation, mais améliore également considérablement le débit de décodage, permettant au modèle d'atteindre une vitesse d'inférence plus rapide tout en conservant des capacités de localisation de haute précision.

Au-delà de l'innovation architecturale, NVIDIA a également conçu un système d'entraînement à grande échelle autour de ce modèle. L'équipe de recherche a développé un moteur de données évolutif et lancé le jeu de données LocateAnything-Data, qui contient plus de 138 millions d'exemples d'entraînement. Ce jeu de données couvre de nombreux domaines tels que les scènes naturelles, la robotique, la conduite autonome, l'interaction avec les interfaces graphiques, la compréhension de documents et la reconnaissance optique de caractères (OCR), améliorant ainsi considérablement la capacité de généralisation du modèle dans des scénarios complexes.

Les résultats expérimentaux montrent que LocateAnything offre une meilleure qualité de localisation et une vitesse de décodage accrue dans de nombreux tests de localisation visuelle, dépassant ainsi le compromis traditionnel entre vitesse et précision des modèles de localisation visuelle unifiés. Pour les agents d'interface graphique, les systèmes d'annotation automatique et les agents multimodaux de nouvelle génération, en plein développement, cette capacité de compréhension spatiale efficace et précise devient une infrastructure essentielle.

Actuellement, la section tutoriels du site officiel d'HyperAI (hyper.ai) a lancé « LocateAnything-3B : un modèle de localisation visuelle du langage rapide et de haute qualité », qui abaisse le seuil de déploiement sous la forme d'un notebook.

Exécutez en ligne :https://go.hyper.ai/4l9jB

Plus de tutoriels en ligne :

https://hyper.ai/notebooks

Bienvenue sur notre site web officiel pour plus d'informations :

https://hyper.ai

Essai de démonstration

1. Après avoir accédé à la page d'accueil d'hyper.ai, sélectionnez la page « Tutoriels » ou cliquez sur « Voir plus de tutoriels », sélectionnez « LocateAnything-3B : Modèle de localisation visuelle du langage rapide et de haute qualité », puis cliquez sur « Exécuter ce tutoriel ».

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA RTX 5090 » et « PyTorch », puis cliquez sur « Continuer l'exécution de la tâche ».

4. Attendez que les ressources soient allouées. Une fois que le statut passe à « En cours d'exécution », cliquez sur « Ouvrir l'espace de travail » pour accéder à l'espace de travail Jupyter.

Affichage des effets

1. Une fois la page redirigée, cliquez sur le fichier README à gauche, puis sur « Exécuter » en haut.

2. Une fois le processus terminé, cliquez sur l'adresse API à droite pour accéder à la page de démonstration.

HyperAI

Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.

il y a 2 mois

Information

Intelligence Artificielle

Vision Par Ordinateur

Apprentissage Profond

Traitement Du Langage Naturel

Vision Par Ordinateur

Exécutez en ligne :https://go.hyper.ai/4l9jB

Plus de tutoriels en ligne :

https://hyper.ai/notebooks

Bienvenue sur notre site web officiel pour plus d'informations :

https://hyper.ai

Essai de démonstration

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA RTX 5090 » et « PyTorch », puis cliquez sur « Continuer l'exécution de la tâche ».

Affichage des effets

1. Une fois la page redirigée, cliquez sur le fichier README à gauche, puis sur « Exécuter » en haut.

2. Une fois le processus terminé, cliquez sur l'adresse API à droite pour accéder à la page de démonstration.

Associé Actualités

Compilation De Tutoriels OCR | Couvrant Les Documents Longs, Le Traitement De Bout En Bout Et Les Scénarios Multilingues, Avec Des Modèles Open Source Haute Performance De Baidu, Xiaohongshu, De l'Université Des Sciences Et Technologies De Huazhong Et d'autres Pour Différents Scénarios, Permettant Une Analyse Précise Des Documents multimodaux.

Rapport Hebdomadaire Sur l'IA | Microsoft MAI-Thinking Explore l'auto-évolution De l'apprentissage Par Renforcement Pur, Atteignant Une Précision AIME De 97% ; VLM³ Réalise La Généralisation De Tâches 3D À Partir De Coordonnées Textuelles Simples, Sans Modification Architecturale… Un Aperçu Rapide Des Articles De Pointe En IA De La Semaine

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Analyse Contextuelle De 32 000 Mots Sur Des Dizaines De Pages De Documents Simultanément : Baidu Open Sources Unlimited OCR, Refactorisation De Scénarios Complexes Avec Des Documents Longs

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Résumé Du Jeu De Données | NVIDIA Open Sources Nemotron : Plus De 10 To De Jetons + 40 millions D’échantillons D’entraînement, Couvrant Le Raisonnement Mathématique, La Génération De Code Et Le Dialogue multilingue.

Les Emojis peuvent-ils Contrôler La Génération De La Parole ? Irodori-TTS Est Un Système De Synthèse Vocale Japonais Basé Sur L’architecture RF-DiT ; Ensembles De Données Sur L’eczéma Et La Teigne : Soutien À La Classification D’images Médicales Et À L’apprentissage Par transfert.

Avec Une Précision d'estimation De Profondeur Atteignant 0,9, Meta a Proposé VLM³, Démontrant Que Les Modèles Visuels Sont Intrinsèquement Capables d'apprendre La 3D Et De Réaliser Une Modélisation Unifiée Pour De Multiples Tâches Basée Sur Qwen3-VL-4B.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

HyperAI

Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.

il y a 2 mois

Information

Intelligence Artificielle

Vision Par Ordinateur

Apprentissage Profond

Traitement Du Langage Naturel

Vision Par Ordinateur

Exécutez en ligne :https://go.hyper.ai/4l9jB

Plus de tutoriels en ligne :

https://hyper.ai/notebooks

Bienvenue sur notre site web officiel pour plus d'informations :

https://hyper.ai

Essai de démonstration

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA RTX 5090 » et « PyTorch », puis cliquez sur « Continuer l'exécution de la tâche ».

Affichage des effets

1. Une fois la page redirigée, cliquez sur le fichier README à gauche, puis sur « Exécuter » en haut.

2. Une fois le processus terminé, cliquez sur l'adresse API à droite pour accéder à la page de démonstration.

Associé Actualités

Compilation De Tutoriels OCR | Couvrant Les Documents Longs, Le Traitement De Bout En Bout Et Les Scénarios Multilingues, Avec Des Modèles Open Source Haute Performance De Baidu, Xiaohongshu, De l'Université Des Sciences Et Technologies De Huazhong Et d'autres Pour Différents Scénarios, Permettant Une Analyse Précise Des Documents multimodaux.

Rapport Hebdomadaire Sur l'IA | Microsoft MAI-Thinking Explore l'auto-évolution De l'apprentissage Par Renforcement Pur, Atteignant Une Précision AIME De 97% ; VLM³ Réalise La Généralisation De Tâches 3D À Partir De Coordonnées Textuelles Simples, Sans Modification Architecturale… Un Aperçu Rapide Des Articles De Pointe En IA De La Semaine

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Analyse Contextuelle De 32 000 Mots Sur Des Dizaines De Pages De Documents Simultanément : Baidu Open Sources Unlimited OCR, Refactorisation De Scénarios Complexes Avec Des Documents Longs

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Résumé Du Jeu De Données | NVIDIA Open Sources Nemotron : Plus De 10 To De Jetons + 40 millions D’échantillons D’entraînement, Couvrant Le Raisonnement Mathématique, La Génération De Code Et Le Dialogue multilingue.

Les Emojis peuvent-ils Contrôler La Génération De La Parole ? Irodori-TTS Est Un Système De Synthèse Vocale Japonais Basé Sur L’architecture RF-DiT ; Ensembles De Données Sur L’eczéma Et La Teigne : Soutien À La Classification D’images Médicales Et À L’apprentissage Par transfert.

Avec Une Précision d'estimation De Profondeur Atteignant 0,9, Meta a Proposé VLM³, Démontrant Que Les Modèles Visuels Sont Intrinsèquement Capables d'apprendre La 3D Et De Réaliser Une Modélisation Unifiée Pour De Multiples Tâches Basée Sur Qwen3-VL-4B.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

Command Palette

Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.

Essai de démonstration

Affichage des effets

Command Palette

Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.

Essai de démonstration

Affichage des effets

Associé Actualités

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Analyse Contextuelle De 32 000 Mots Sur Des Dizaines De Pages De Documents Simultanément : Baidu Open Sources Unlimited OCR, Refactorisation De Scénarios Complexes Avec Des Documents Longs

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Résumé Du Jeu De Données | NVIDIA Open Sources Nemotron : Plus De 10 To De Jetons + 40 millions D’échantillons D’entraînement, Couvrant Le Raisonnement Mathématique, La Génération De Code Et Le Dialogue multilingue.

Avec Une Précision d'estimation De Profondeur Atteignant 0,9, Meta a Proposé VLM³, Démontrant Que Les Modèles Visuels Sont Intrinsèquement Capables d'apprendre La 3D Et De Réaliser Une Modélisation Unifiée Pour De Multiples Tâches Basée Sur Qwen3-VL-4B.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

Command Palette

Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.

Essai de démonstration

Affichage des effets

Associé Actualités

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Analyse Contextuelle De 32 000 Mots Sur Des Dizaines De Pages De Documents Simultanément : Baidu Open Sources Unlimited OCR, Refactorisation De Scénarios Complexes Avec Des Documents Longs

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Résumé Du Jeu De Données | NVIDIA Open Sources Nemotron : Plus De 10 To De Jetons + 40 millions D’échantillons D’entraînement, Couvrant Le Raisonnement Mathématique, La Génération De Code Et Le Dialogue multilingue.

Avec Une Précision d'estimation De Profondeur Atteignant 0,9, Meta a Proposé VLM³, Démontrant Que Les Modèles Visuels Sont Intrinsèquement Capables d'apprendre La 3D Et De Réaliser Une Modélisation Unifiée Pour De Multiples Tâches Basée Sur Qwen3-VL-4B.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

Associé Actualités

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Analyse Contextuelle De 32 000 Mots Sur Des Dizaines De Pages De Documents Simultanément : Baidu Open Sources Unlimited OCR, Refactorisation De Scénarios Complexes Avec Des Documents Longs

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Résumé Du Jeu De Données | NVIDIA Open Sources Nemotron : Plus De 10 To De Jetons + 40 millions D’échantillons D’entraînement, Couvrant Le Raisonnement Mathématique, La Génération De Code Et Le Dialogue multilingue.

Avec Une Précision d'estimation De Profondeur Atteignant 0,9, Meta a Proposé VLM³, Démontrant Que Les Modèles Visuels Sont Intrinsèquement Capables d'apprendre La 3D Et De Réaliser Une Modélisation Unifiée Pour De Multiples Tâches Basée Sur Qwen3-VL-4B.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

Associé Actualités

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Analyse Contextuelle De 32 000 Mots Sur Des Dizaines De Pages De Documents Simultanément : Baidu Open Sources Unlimited OCR, Refactorisation De Scénarios Complexes Avec Des Documents Longs

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Résumé Du Jeu De Données | NVIDIA Open Sources Nemotron : Plus De 10 To De Jetons + 40 millions D’échantillons D’entraînement, Couvrant Le Raisonnement Mathématique, La Génération De Code Et Le Dialogue multilingue.

Avec Une Précision d'estimation De Profondeur Atteignant 0,9, Meta a Proposé VLM³, Démontrant Que Les Modèles Visuels Sont Intrinsèquement Capables d'apprendre La 3D Et De Réaliser Une Modélisation Unifiée Pour De Multiples Tâches Basée Sur Qwen3-VL-4B.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.