HyperAIHyperAI

Command Palette

Search for a command to run...

Hacker News 向量搜索数据集:基于 ClickHouse 的高效实时检索实战

Hacker News 向量搜索数据集由 ClickHouse 提供,包含 2874 万条用户生成的帖子及其向量嵌入。这些嵌入是使用 Sentence Transformers 的 all-MiniLM-L6-v2 模型生成的,每个向量维度为 384。该数据集可用于构建大规模、真实场景下的向量搜索应用,帮助用户理解系统设计、资源规划与性能优化。 数据以单个 Parquet 文件形式存储在 S3 存储桶中,建议用户在使用前先通过文档进行存储与内存需求的估算。要使用该数据集,可创建一个名为 hackernews 的 ClickHouse 表,结构包含 id、文档 ID、原始文本、向量、元数据、类型、作者、时间、标题、评分、状态等字段。表引擎为 MergeTree,按 id 排序。 为实现语义搜索,可使用 sentence-transformers 库生成查询向量,再通过 ClickHouse 的 cosineDistance 函数进行相似度计算。示例中展示了如何对“ClickHouse 性能体验”等主题进行搜索,并返回最相关的内容。 该数据集还可用于构建生成式 AI 应用。一个典型示例是:用户输入一个主题,系统用 all-MiniLM-L6-v2 生成嵌入向量,从 hackernews 表中检索高相关性内容,再通过 LangChain 与 OpenAI 的 gpt-3.5-turbo API 进行内容总结。该流程将向量搜索与大模型生成结合,实现从数据检索到智能摘要的完整链路。 此应用可广泛应用于企业场景,如客户情绪分析、技术支持自动化、用户对话挖掘、法律文件处理、医疗记录分析、会议纪要整理、财务报告解读等,充分展示向量数据库与生成式 AI 融合的潜力。使用需配置 OpenAI API 密钥,代码中已提供完整实现。

相关链接