GovScape、政府文書PDF用AI検索ツール開発
ワシントン大学の研究チームは、米政府の任期終了時ウェブアーカイブ内のPDFを検索する多モーダルシステムGovScapeを開発した。同アーカイブは2008年から2024年までを記録し情報量も膨大であるが、関連資料の抽出は従来の手法では困難を極めていた。研究チームはテキストと画像の埋め込みベクトルを生成する高効率AIモデルを活用し、キーワード検索、文脈に基づく意味的検索、および検閲文書や円グラフなどの視覚的特徴を指定する画像検索を統合したパイプラインを構築した。 処理コストの低廉さが技術的な特筆点である。1000万件のPDF解析に要する費用は1,500ドル未満(約4万7千ページ当たり1ドル相当)に抑えられており、商用のAIテキスト解析サービスと比較しても極めて経済的である。現在、システムはトランプ前大統領の第一期任期中に公開されたPDF約1000万件で動作テストが実施されている。今後は2008年から2024年までの全7,000万件以上へのデータセット拡大、ならびにスプレッドシートやHTMLファイルなど多様なファイル形式への対応範囲拡張を計画している。 本研究成果は7月5日に米サンディエゴで開催される計算言語学会議(ACL)で発表され、学術プレプリントサーバーarXivにも公開された。責任者のベンジャミン・チャールズ・ジェルマン・リー准教授は、アーカイブ規模の指数関数的な増加に伴う検索インフラのスケーリングが今後の主要課題であると指摘。GovScapeのような技術革新が政府情報の透明性を高め、民主主義の健全な運営と市民の情報アクセス権の維持に不可欠な基盤となると強調した。
