华盛顿大学研发GovScape系统实现政府档案高效检索
华盛顿大学联合研究团队近日成功开发名为 GovScape 的多模态文档搜索引擎,旨在解决海量政府公开信息检索难题。该工具专为“任期终止网络档案”设计,该档案自2008年起系统收录历届美国总统任内发布的网页与文件。面对档案中数量庞大的 PDF 文档,传统检索系统往往难以兼顾文本与图表信息。GovScape 通过构建高效的数据处理流水线,利用前沿人工智能模型将每页文档的文本与视觉元素转化为高精度数值嵌入向量,从而实现关键词精准定位、语义关联查询及图像特征检索。 目前,系统已顺利完成特朗普首个任期内一千万份 PDF 文件的索引构建,整体算力成本控制在1500美元以内,远低于商业级 AI 解析服务。研究团队负责人 Benjamin Charles Germain Lee 教授表示,下一代技术迭代将全面覆盖2008至2024年间全部七千万份历史档案,并逐步兼容电子表格与网页格式。该研究成果将于7月5日在圣地亚哥举行的计算语言学协会年度会议上正式发布,相关论文已同步上传至 arXiv 预印本平台。 这一技术突破显著提升了公共档案的检索效率与透明度。研究人员指出,降低信息获取门槛对于保障公众知情权、促进学术研究与维护民主社会运转具有深远意义。未来,GovScape 有望成为数字时代政府档案管理与公众利用的重要基础设施。
