「Exa (YC S21):ウェブをデータベース化する新世代検索エンジン『Websets』が登場」
新サービス「Exa Websets」—— ネットをデータベースとして検索 こんにちは、ハッカー・ニュースの皆さん。私たちはウィルとジェフ、ウェブ検索エンジン「Exa Websets」の開発者です。「Exa Websets」は、埋め込みモデル(embeddings)を活用し、ユーザーが求める情報を正確に提供することを目指しています。具体的には、「2021-2025年に設立され、サンフランシスコに本社があるオープンソース開発ツールを手がけるスタートアップすべて」のような複雑なクエリにも対応できます。 プロジェクトを始めたきっかけは、大規模言語モデル(LLM)が急速に進化している一方、Googleなどの既存の検索エンジンがSEO対策のクリックベイト記事によって情報を探しにくくなっていることへの不満でした。インターネットは以前、情報への魔法のポータルのように感じられました。しかし、今ではその感覚が薄れています。Exa Websetsはその逆方向を指向し、ユーザーの要求に正確に対応することに重点を置いています。 Websetsの強みは二つあります。まず、当社独自の埋め込みモデルを主な検索アルゴリズムに使用しています。通常のキーワード一致検索と異なり、このモデルはユーザーが求める具体的な情報を返すように訓練されています。たとえば、「ナノテクノロジーのスタートアップ」と検索すると、キーワード検索エンジンはリスト記事を返しますが、Exa Websetsは実際のスタートアップのホームページを表示します。 其次、LLMが最終的な検証を担っています。各結果は、当社が使用した支援リファレンスとともに提供されるため、ユーザーが設定した検索条件に正確に一致していることが確認されます。そのため、検索は数分から数時間かかることがあります。しかし、重要な情報を求めるユーザーにとっては価値ある投資だと考えています。 また、Websetsの結果はテーブル形式で表示されるため、ウェブがまるでデータベースのように感じられます。例えば、「従業員数」や「著者がブログを持っているかどうか」などの「エンrichment」列を追加することも可能です。これにより、各結果の詳細情報が非同期に読み込まれます。 実際の例 「米国外の教師によって作成された数学のブログ」: リンク 「2018年から2022年にかけて、最初の著者の名前が"A"、"B"、"S"、または"T"で始まり、変压器(transformers)におけるO(n^2)注意問題の回避方法についての研究論文」: リンク 「100人以上の従業員を持つ TECH 創業者がいる米国の医療企業」: リンク 「ベイエリアに住み、スタートアップでの経験があるRustプログラマーで、技術的なコンテンツを公開しているソフトウェアエンジニア全員」: デモ 詳細やAPIドキュメントは公式ウェブサイトをチェックしてみてください。Exa Websets, APIドキュメント。 ユーザーの皆さんのフィードバックをお待ちしています!