KI durchsucht Millionen Regierungsarchive
Ein Forschungsteam der University of Washington hat mit GovScape ein hocheffizientes Suchsystem für staatliche Dokumentensammlungen entwickelt. Das Tool adressiert die zunehmende Erschwerung der Informationsrecherche in digitalen Archivbeständen, indem es multimodale Suchfunktionen für PDF-Dateien des End of Term Web Archive bereitstellt. Das Archiv konserviert seit 2008 die Webpräsenzen US-amerikanischer Präsidentschaftsadministrationen und umfasst aktuell rund zehn Millionen PDFs aus der ersten Amtszeit von Donald Trump. Geplant ist die schrittweise Expansion auf insgesamt siebzig Millionen Dokumente ab dem Jahr 2008. GovScape integriert drei Suchmodi: die traditionelle Schlüsselwortsuche, semantische Abfragen sowie visuelle Erkennung. Letztere ermöglicht es Nutzern, gezielt nach Dokumenteneigenschaften wie zensierte Seiten, Luftaufnahmen oder Kreisdiagramme zu suchen. Die technische Basis bildet ein automatisierter Datenpipeline, der jede PDF-Seite in ein Bild konvertiert und parallel den Text extrahiert. Moderne, ressourcenschonende KI-Modelle erzeugen daraufhin mathematische Repräsentationen, sogenannte Embeddings, für sowohl visuelle als auch textliche Inhalte. Diese Vektordaten ermöglichen eine inhaltliche und visuelle Gruppierung ähnlicher Seiten, vergleichbar mit einer bibliotheksüblichen Klassifikation. Die Kostenersparnis ist signifikant: Die Verarbeitung der zehn Millionen PDFs belief sich auf weniger als 1.500 US-Dollar, was einem Preis von etwa einem Dollar pro 47.000 Seiten entspricht. Zum Vergleich: Kommerzielle KI-Anbieter veranschlagen für vergleichbare Leistungen oft ein Vielfaches. Die Forscher um Projektleiter Benjamin Charles Germain Lee, Assistenzprofessor an der Information School der University of Washington, verweisen darauf, dass die exponentielle Zunahme digitaler Archive die manuelle Recherche unmöglich macht. GovScape soll diese Barriere senken und die demokratische Teilhabe durch transparenten Datenzugang stärken. Die Forschungsergebnisse werden am 5. Juli auf der Jahrestagung der Association for Computational Linguistics in San Diego vorgestellt und sind bereits auf dem Preprint-Server arXiv veröffentlicht. Künftige Entwicklungsziele umfassen die vollständige Indexierung des gesamten Archivbestands sowie die Integration weiterer Dateitypen wie Tabellenkalkulationen und HTML-Seiten. Das Projekt unterstreicht den wachsenden Bedarf an skalierbaren, kostengünstigen Suchinfrastrukturen für öffentliches Datenmaterial im digitalen Zeitalter.
