HyperAIHyperAI

Command Palette

Search for a command to run...

Hacker News-Dataset für vektorbasierte Suchanwendungen mit ClickHouse

Das Hacker News-Vektor-Such-Dataset von ClickHouse umfasst 28,74 Millionen Beiträge mit semantischen Embeddings, die mit dem Modell all-MiniLM-L6-v2 von SentenceTransformers generiert wurden. Jeder Embedding-Vektor hat eine Dimension von 384 und ist in einem einzigen Parquet-File im S3-Bucket von ClickHouse verfügbar. Die Datenstruktur ist in einer ClickHouse-Tabelle namens hackernews organisiert, die neben Textinhalten auch Metadaten wie Typ (Story, Kommentar, Poll etc.), Autor, Zeitstempel und Bewertungen speichert. Die Tabelle nutzt den MergeTree-Engine-Typ und ist nach id sortiert, was die effiziente Abfrage und Skalierbarkeit für große Datenmengen ermöglicht. Benutzer können mithilfe der cosineDistance()-Funktion in ClickHouse semantische Suchanfragen durchführen, wobei die Vektorähnlichkeit mit dem Suchbegriff berechnet wird. Dazu wird ein Python-Skript bereitgestellt, das die Embeddings für eine Eingabe generiert und an die Datenbank übermittelt. Die Ergebnisse können anschließend mit präzisen Filtern (z. B. nach Typ oder Zeit) kombiniert werden, was die Kombination von Vektor- und prädikativer Suche demonstriert. Ein zentrales Anwendungsbeispiel ist eine generative KI-Anwendung, die Themen von Nutzern einliest, die zugehörigen Vektoren generiert und relevante Beiträge aus dem Dataset abruft. Diese Beiträge dienen als Kontext für die OpenAI-Chat-API (gpt-3.5-turbo), die eine präzise Zusammenfassung erstellt. Die Anwendung nutzt LangChain zur Verarbeitung der Texte, teilt sie bei Bedarf in kleinere Blöcke auf und wendet entweder die „stuff“- oder „map_reduce“-Kette an, je nach Token-Anzahl. So wird sichergestellt, dass die Länge der Eingabe in die LLM-Modelle passt. Die Anwendung eignet sich für verschiedene Unternehmensanwendungen wie Kundensentiment-Analyse, technische Support-Automatisierung, Dokumentenanalyse in Rechts- und Gesundheitswesen sowie die Auswertung von Meeting-Transkripten und Finanzberichten. Industrieexperten sehen in diesem Ansatz eine wegweisende Kombination aus skalierbarer Vektor-Speicherung, semantischer Suche und generativer KI. Die Nutzung von ClickHouse für große Vektor-Daten ist besonders effizient, da die Plattform hohe Durchsatzraten bei geringer Latenz unterstützt. Die Integration von OpenAI und SentenceTransformers ermöglicht eine nahtlose Übersetzung von natürlicher Sprache in semantische Vektoren und zurück. Unternehmen können diese Architektur nutzen, um Wissen aus unstrukturierten Datenquellen zu erschließen, ohne auf externe Suchlösungen angewiesen zu sein. Die Open-Source-Natur des Ansatzes und die klare Dokumentation machen ihn besonders attraktiv für Entwickler und Data Scientists.

Verwandte Links