Googleが開発したLangExtractとGemma 3で保険契約書を効率的に構造化抽出
Googleが公開したオープンソースの情報抽出フレームワーク「LangExtract」と、同社が開発する軽量大規模言語モデル「Gemma 3」を組み合わせることで、保険契約書や医療記録、コンプライアンス報告書といった長大で構造のない文書から正確に重要な情報を抽出できるようになる。こうした文書は、保険の補償限度や免責条項といった重要な情報が大量のテキストに埋もれており、一般ユーザーが読み解くのは困難である。LangExtractは、ユーザーが定義した指示に従ってLLMを活用し、名前付きエンティティ(例:補償内容、免責事項)や関係性を自動的に抽出するPythonライブラリ。Gemma 3は、最大128Kトークンまで処理可能な軽量モデルで、40億パラメータ版(4B)をOllamaでローカルに実行することで、インターネット接続不要で高速に処理が可能。 LangExtractの特徴は、文書を自然な単位(文や段落)で分割する「スマートチャンキング」、複数のチャンクを並列処理で扱う「並列処理機能」、複数回の抽出を繰り返して漏れを減らす「複数抽出パス」の3つ。特に複数パスでは、LLMの確率的性質を活かし、一度では見逃した情報を再抽出し、先に処理された結果を優先する仕組みで衝突を回避。これにより、抽出精度とカバレッジが向上する。 実際の例として、マレーシアのMSIG社が公開する自動車保険契約書を対象に検証。PyMuPDFでPDFを読み取り、LangExtractの提示文(システムプロンプト)にJSON形式の出力要件と、免責条項の具体例を含めて設定。Gemma 3 4Bモデルをローカルで起動し、10ページの文書を8GB GPU環境で10分以内に処理。抽出結果は、原文の行とその簡単な説明を対応させた構造化データとして出力され、専門用語を平易に解釈することで、非専門家でも理解しやすくなる。 この技術は、医療や法務、金融分野での情報整理に大きな可能性を秘めている。Googleが提供するこの組み合わせは、大規模な非構造化データから信頼性の高い構造化情報を効率的に得るための実用的なツールとして注目されている。
