HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 jours
Vision Par Ordinateur

Upsample Anything : 16x moins de mémoire pour la vision IA

Une équipe de recherche conjointe, réunissant l'Université KAIST, le MIT et Microsoft, a développé une technologie de vision par ordinateur nommée Upsample Anything. Cette méthode permet d'améliorer la précision des modèles d'intelligence artificielle tout en réduisant drastiquement l'utilisation de la mémoire GPU, jusqu'à un facteur 16. Les travaux, dirigés par le professeur Changick Kim et portant comme premier auteur le doctorant Minseok Seo, ont été présentés lors de la conférence CVPR 2026 et publiés sur le serveur préimprimé arXiv. Les systèmes de vision artificielle, essentiels au fonctionnement des robots humanoïdes, des véhicules autonomes et des appareils mobiles, comparent généralement les images entrantes à une résolution réduite pour accélérer les calculs et économiser de la mémoire. Cette compression entraîne toutefois une perte de détails critiques, tels que les petits objets ou les structures fines. À l'inverse, le traitement natif en haute résolution exige des ressources informatiques massives, incompatibles avec les dispositifs embarqués à l'autonomie limitée. Les techniques de suréchantillonnage existantes nécessitent généralement un réapprentissage spécifique pour s'adapter à de nouveaux environnements, ce qui les alourdit et les ralentit. Upsample Anything contourne ces obstacles par une approche ne nécessitant aucun entraînement préalable. Le système compresse d'abord l'image en une version basse résolution, puis reconstruit les détails en haute résolution grâce à une optimisation au moment de l'exécution. Il apprend des paramètres de noyau anisotropes pixel par pixel, directement à partir d'une seule image d'entrée, pour restaurer les structures et les contours sans recalibrage. Cette méthode fonctionne comme un filtre adaptatif qui récupère les informations visuelles perdues pendant la compression, évitant ainsi toute phase d'apprentissage longue et coûteuse. Les tests menés par les chercheurs démontrent une efficacité remarquable. Sur une image standard de 224 par 224 pixels, le processus de reconstruction s'effectue en environ 0,4 seconde, tout en garantissant une qualité visuelle quasi identique à l'original. L'optimisation des ressources permet de réduire la consommation mémoire GPU jusqu'à seize fois par rapport aux méthodes conventionnelles. Cette performance a valu à l'équipe le CVPR Compute Gold Star pour l'efficacité computationnelle, ainsi que le titre de Transparency Champion au premier rang de la catégorie reproductibilité des processus de recherche. Selon le professeur Changick Kim, cette algorithmique améliore significativement la perception visuelle de l'IA avec des moyens limités, accélérant ainsi le déploiement commercial des robots humanoïdes et de l'IA embarquée. La technologie, publiée avec son code source pour assurer sa reproductibilité, s'annonce comme un atout majeur pour les futurs systèmes autonomes, les smartphones et les modèles de monde qui doivent interpréter leur environnement physique en temps réel.

Liens associés