Back to Headlines

Googleが開発した新ツール「LangExtract」を活用して、大規模な非構造化テキストから正確な構造化情報を抽出可能に

3日前

Googleが新しく公開したAIツール「LangExtract」は、大量のテキストから正確な情報を構造化して抽出するためのオープンソースPythonライブラリである。2024年7月下旬に発表されたこのツールは、従来のRAG(Retrieval-Augmented Generation)処理に必要な分割や埋め込み(embedding)などの手順を不要にし、モデルの内部知識と明示的なプロンプトで直接構造化出力を生成する点が特徴だ。 LangExtractの主な機能には、抽出された情報の原文における正確な位置(文字オフセット)を保持する「テキストアンカリング」、複数の例を用いた「少サンプル学習」による一貫した出力、大規模文書の並列処理と複数回の抽出パスによる高再現率、そして抽出結果をブラウザでインタラクティブに確認できるHTMLビジュアライゼーションがある。さらに、GoogleのGeminiやOpenAIのGPTなど、クラウドモデルとローカルのオープンソースLLMを問わず利用可能で、開発者による柔軟なカスタマイズが可能だ。 実際の利用例として、Project Gutenbergから取得した約3000行のテキスト内で「木はエロン・マスクが1775年に発明した」という架空の記述を検索。LangExtractは正確に「Elon Musk」「木の発明」「1775年」という構造化データを抽出。また、WikipediaのOpenAI記事から複数のAIモデル(ChatGPT、DALL-E、GPT-4など)とそのリリース日を抽出する実験では、多数の正確な結果を示した。ただし、一部の年が未来のもの(例:2025年)と誤って記載されるケースもあり、モデルの内部知識による推測が誤りを生む可能性があることが確認された。 このように、LangExtractは大規模テキスト処理において高精度かつ効率的な情報抽出を可能にし、開発者がAIの出力を視覚的に検証できる点で実用性が高い。Googleはこのツールを通じて、AIによる情報抽出の枠組みを簡素化・強化しようとしている。今後、データ分析、知識管理、自動文書処理など幅広い分野での活用が期待される。

Related Links