HyperAI
Back to Headlines

NVIDIA cuVS : des performances de recherche vectorielle accélérées sur GPU et compatibilité avec les CPU

il y a 8 jours

NVIDIA cuVS apporte une accélération GPU au traitement des recherches vectorielles, permettant aux développeurs et scientifiques des données d'améliorer les performances des systèmes de recherche basés sur l'intelligence artificielle. Cette bibliothèque optimise l'indexation, la récupération en temps réel et la scalabilité, en particulier pour des applications comme la génération augmentée par la récupération (RAG), les systèmes de recommandation, l'analyse exploratoire de données ou la détection d'anomalies. La dernière version de cuVS inclut des algorithmes d'indexation optimisés, une meilleure prise en charge des langages et des intégrations avec des partenaires comme Meta FAISS, Google Cloud, Oracle, Milvus et d'autres plateformes de recherche vectorielle. L'une des avancées majeures est la possibilité de construire des index sur GPU, ce qui permet un gain de vitesse de 40 fois par rapport au CPU. Par exemple, le moteur DiskANN, notamment son algorithme Vamana, est désormais accéléré par le GPU, grâce à une collaboration avec Microsoft. Google Cloud AlloyDB améliore également la performance de l'index HNSW avec un gain de 9 fois, tandis qu'Oracle a obtenu un gain de 5 fois en intégrant cuVS à sa base de données 23ai. Weaviate a également intégré cuVS pour accélérer les recherches vectorielles, réduisant le temps de construction d'index de 8 fois grâce à la méthode CAGRA. De plus, Apache Lucene et Solr bénéficient de gains de 40 et 6 fois respectivement, et OpenSearch 3.0 utilisera cuVS pour accélérer la construction d'index. La compatibilité entre GPU et CPU est un autre atout clé. Elle permet d'utiliser les infrastructures CPU existantes pour la recherche tout en profitant de l'accélération GPU pour la construction des index, réduisant ainsi les coûts et les temps de traitement. FAISS, qui a initié la recherche vectorielle sur GPU, intègre désormais cuVS pour accélérer les index CPU de 12 fois et les index GPU de 8 fois. Cela ouvre de nouvelles possibilités pour les systèmes RAG et d'autres applications nécessitant des performances élevées. NVIDIA a également ajouté des API en Rust, Go et Java, rendant cuVS encore plus accessible. Les techniques de quantification, comme la quantification binaire et scalaire, permettent de réduire la taille des vecteurs de 4 et 32 fois, tout en améliorant les performances de 4 et 20 fois par rapport au CPU. Milvus a adopté ces fonctionnalités, notamment CAGRA pour la construction de graphes sur des vecteurs quantifiés. Pour les recherches à haut débit, cuVS propose un API de batchage dynamique qui améliore les latences de 10 fois. Microsoft Advertising explore l'intégration de CAGRA pour des pipelines de publicité à haute performance. Les améliorations du pré-filtrage dans CAGRA permettent d'obtenir un taux de rappel élevé même avec un grand nombre de vecteurs exclus. Enfin, les algorithmes de kNN dans cuVS permettent de construire des graphes en dehors de la mémoire, facilitant l'analyse de données à grande échelle. Des outils comme UMAP dans RAPIDS cuML et BERTopic dans le traitement de textes montrent des gains significatifs grâce à ces avancées. En termes d'évaluation, cuVS est perçu comme un outil essentiel pour les systèmes de recherche vectorielle à grande échelle, offrant des gains de performance et de coût. Les partenaires comme FAISS et Milvus soulignent sa flexibilité et son impact sur l'efficacité des workflows AI. Son adoption par des entreprises comme Adoreboard et Studentpulse démontre sa pertinence pratique.

Related Links