HyperAIHyperAI

Command Palette

Search for a command to run...

ClickHouseで実現するHacker Newsの384次元ベクトル検索と生成AIによる要約アプリ開発

Hacker Newsのベクターサーチデータセットは、2874万件の投稿とそのベクトル埋め込みを含む大規模なテキストデータで、ClickHouseが提供している。このデータは、SentenceTransformersのall-MiniLM-L6-v2モデルを用いて生成され、各ベクトルの次元は384。このデータセットは、ユーザー生成テキストを対象とした大規模なベクターサーチアプリケーションの設計、容量計画、パフォーマンス評価の実践的学習に最適な教材として活用できる。データはS3バケットに1つのParquetファイルとして公開されており、ユーザーは事前にストレージとメモリの要件をClickHouseのドキュメントに基づいて推定することを推奨されている。 テーブルはhackernewsとして作成され、id、text、vector(Float32の配列)、type(投稿種別)、by(投稿者)、time(投稿日時)など、多様な属性を保持。エンジンはMergeTreeで、idを基準に並べ替えられる。ベクターサーチでは、cosineDistance()関数を用いて類似度を計算し、vectorとクエリの埋め込みベクトルの類似度で結果をソート。また、typeやtimeなどの属性を用いた前フィルタリングや後フィルタリングも可能で、効率的な検索が実現する。 このデータセットを活用した応用例として、トピック入力を受け、その内容に最も関連する投稿を検索し、OpenAIのgpt-3.5-turboとLangChainを用いて要約するアプリケーションが紹介されている。ユーザーが「ClickHouse performance experiences」と入力すると、関連する投稿を検索し、AIが要約を生成。結果として、ClickHouseの高パフォーマンス、コスト効率、リアルタイム集計能力の高さが強調され、一方でDMLやバックアップの難しさも指摘された。この要約アプリは、カスタマーサポート、法務文書分析、会議記録処理、財務報告など、多様な企業分野に応用可能なGenerative AIの実例を示している。実行にはOpenAI APIキーが必要で、環境変数OPENAI_API_KEYに設定する。このように、大規模なテキストデータとAIの連携は、現実の業務課題解決に直結する可能性を秘めている。

関連リンク