HyperAI
Back to Headlines

NVIDIA cuVS beschleunigt Vektor-Suche mit GPU-Technik.

vor 8 Tagen

NVIDIA cuVS hat eine neue Version veröffentlicht, die Vector-Suche und Clustering mit GPU-Beschleunigung für Entwickler und Datenwissenschaftler optimiert. Das Tool ermöglicht schnellere Index-Builds, Echtzeit-Updates und effiziente Suche bei großen Datenmengen, was besonders für Anwendungen wie Retrieval-Augmented Generation (RAG), Empfehlungssysteme oder Anomalieerkennung wichtig ist. In der neuesten Version wurden optimierte Index-Algorithmen hinzugefügt, die Sprachunterstützung erweitert und tiefe Integrationen mit Partnern wie Meta FAISS, Google Cloud AlloyDB, Vertex AI, Milvus, Apache Lucene, Elasticsearch, OpenSearch, Weaviate und Kinetica ermöglicht. Ein zentraler Vorteil von cuVS ist die Beschleunigung des Index-Builds auf der GPU. Mit dem Algorithmus Vamana, einem graphbasierten Verfahren von DiskANN, wird der Index-Build bis zu 40-mal schneller als auf dem CPU. NVIDIA arbeitet mit Microsoft zusammen, um diesen Algorithmus auf der GPU einzusetzen. Google Cloud AlloyDB nutzt HNSW-Index-Builds mit einer 9-fachen Geschwindigkeitssteigerung gegenüber pgvector auf der CPU. Oracle hat eine Integration von cuVS in Oracle Database 23ai prototypisch umgesetzt, wodurch der HNSW-Index-Build um 5-fach beschleunigt wird. Weaviate nutzt cuVS, um die Suche auf der GPU zu optimieren, wodurch der Index-Build um 8-fach reduziert wird. Apache Lucene und Solr profitieren ebenfalls von cuVS, mit bis zu 40-facher und 6-facher Geschwindigkeitssteigerung. OpenSearch 3.0 wird ebenfalls cuVS nutzen, um die Index-Build-Zeit um 9,4-fach zu verkürzen. Ein Elasticsearch-Plugin erweitert die Unterstützung weiter. cuVS ermöglicht auch die Interoperabilität zwischen CPU und GPU. Während der Index auf der GPU gebaut wird, kann er auf der CPU genutzt werden, was die Effizienz erhöht und Kosten senkt. Dieses Feature ist besonders in RAG-Workflows nützlich, wo die Latenz der LLM-Inferenz oft die Suchlatenz übertrifft. FAISS nutzt cuVS, um Index-Builds auf der CPU um 12-fach und klassische GPU-Index-Builds um 8-fach zu beschleunigen. Die Unterstützung für neue Sprachen wie Rust, Go und Java wurde erweitert, und die APIs können über GitHub genutzt werden. Binary und scalar Quantisierung sind in cuVS implementiert und ermöglichen eine Verringerung des Speicherbedarfs um 4x bzw. 32x mit deutlich besseren Leistungen als auf der CPU. Ein weiterer Fortschritt ist die dynamische Batch-Verarbeitung, die die Latenz bei hochvolumigen Suchanfragen auf der GPU um bis zu 10-fach reduziert. Microsoft Advertising testet die Integration des CAGRA-Suchalgorithmus für Anwendungen wie Werbungsserver. Die Verbesserungen bei der Vorklassifizierung ermöglichen eine hohe Recall-Rate, auch wenn viele Vektoren ausgeschlossen werden. Der nn-descent-Algorithmus in cuVS unterstützt nun die Erstellung von kNN-Graphen ausserhalb des RAM, was für Datenanalysen in Echtzeit entscheidend ist. NVIDIA cuVS ist eine Schlüsselkomponente für die Optimierung von Vector-Suche und wird in verschiedenen Anwendungen wie RAPIDS cuML, BERTopic und rapids-singlecell genutzt. Entwickler können cuVS über GitHub nutzen oder durch Integrationen mit anderen Plattformen wie FAISS, Milvus oder Weaviate. Die Toolset bietet auch Benchmarks und Automatisierungstools, um die Leistung zu evaluieren. Industrielle Experten loben die Leistungsfähigkeit von cuVS, insbesondere in Kombination mit FAISS und anderen Vector-Datenbanken. Die Plattform wird als wegweisend für die Zukunft von AI-Search angesehen, da sie Skalierbarkeit, Geschwindigkeit und Flexibilität bietet. NVIDIA positioniert cuVS als zentralen Baustein für moderne AI-Systeme, die auf GPU-Beschleunigung setzen.

Related Links