HyperAIHyperAI

Command Palette

Search for a command to run...

GovScape : recherche IA dans les archives gouvernementales

Une équipe de recherche menée par l'Université de Washington a développé GovScape, un moteur de recherche optimisé pour les archives numériques gouvernementales américaines. L'outil est conçu pour exploiter le End of Term Web Archive, une collection qui préserve la trace numérique de chaque administration présidentielle depuis 2008. Actuellement opérationnel sur les dix millions de fichiers PDF publiés durant le premier mandat de Donald Trump, le système vise à intégrer progressivement les soixante-dix millions de documents accumulés entre 2008 et 2024. Face à la difficulté de naviguer dans cette masse de données, GovScape propose trois fonctionnalités distinctes. Il supporte les requêtes par mots-clés exacts, une recherche sémantique qui identifie des documents sur un sujet donné sans correspondance littérale des termes, et un mode de recherche visuelle capable de localiser des éléments spécifiques tels que des documents partiellement censurés, des photographies aériennes ou des graphiques. Pour y parvenir, le pipeline technique décompose chaque PDF en pages individuelles, en extrait le texte et conserve les images. Des modèles d'intelligence artificielle légers génèrent ensuite des embeddings, des représentations numériques qui résument le contenu textuel et visuel. Ces index permettent au système de regrouper automatiquement les pages aux thématiques et aux éléments graphiques similaires. L'architecture retenue se distingue par sa rentabilité exceptionnelle. Le traitement intégral des dix millions de fichiers a nécessité environ mille cinq cents dollars, soit l'équivalent d'un dollar pour près de quarante-sept mille pages. Cette efficacité contraste fortement avec les tarifs des plateformes commerciales d'analyse IA, qui facturent souvent le même montant pour une centaine de pages seulement. Grâce à cette optimisation, les chercheurs prévoient de déployer le système à l'échelle de l'ensemble de l'archive, tout en prévoyant d'élargir ultérieurement la compatibilité aux feuilles de calcul, aux pages web et à d'autres formats administratifs. Les travaux seront présentés le 5 juillet à la réunion annuelle de l'Association for Computational Linguistics à San Diego, après leur mise en ligne sur le serveur arXiv. Selon Benjamin Charles Germain Lee, auteur principal de l'étude, l'enjeu dépasse la simple performance technique. À mesure que les archives numériques grandissent exponentiellement, la capacité à retrouver des informations précises devient un défi critique pour les journalistes, les historiens et les citoyens. GovScape répond directement à cette problématique en fluidifiant l'accès aux données publiques, un levier essentiel pour la transparence institutionnelle et le bon fonctionnement démocratique.

Liens associés