HyperAI超神经
Back to Headlines

科学家呼吁加强研究数据保护:构建分散式存储网络应对关闭风险

3 天前

面对研究数据因政治和技术原因可能消失的风险,科学家、图书管理员和档案管理人员正在呼吁改进学术记录的保存方式。他们建议数据存储库在紧急情况下应制定保护数据的应急计划,包括与其他存储库建立网络,以便在某个存储库出现故障时及时接管数据。此外,出版商也被鼓励使用存档服务来确保其内容的安全。 研究数据丢失的情况比人们想象的要频繁。2023年的一项研究显示,在超过3000个研究数据存储库中,有191个已经关闭,其中有90个未维护对其数据的访问或指定接管数据的新存储库,这表明这些数据可能已遗失。该研究的主要作者多萝西娅·斯特雷克(Dorothea Strecker)——柏林洪堡大学的开放科学与研究数据管理研究员——及其同事写道:“存储库关闭对研究数据的永久可用性构成实际威胁。” 诸如PubMed、Web of Science和Scopus等数据存储库对于研究人员来说至关重要,因为它们提升了数据的可访问性、可靠性和重用性。然而,今年3月PubMed的一次中断事件表明,这些资源并非无懈可击。2015年的一项分析显示,在18年期间,326个数据库中有超过60%消失、无法运行或功能有限,而仅有14%被归档。 德国曼海姆莱布尼兹社会科学院的档案管理员约纳斯·雷克(Jonas Recker)指出,存储库管理者常常忽视关闭的可能性,例如资金流失或托管机构使命变更。他提到,今年2月美国政府网站删除了一些与性别和多样性相关的数据集,这一事件提醒科学界需要构建“强大的网络”,并确保这些网络具有多样的地理位置、技术和技术支持、托管组织和资金来源,以保障科学研究的保存。 许多存储库由于缺乏资金、技术问题或组织变化而关闭。斯特雷克及其同事认为,数据保存不应仅仅依赖单个存储库,而应采取更加分散的保存方法,例如开发能够在某存储库关闭时保存数据的网络。雷克也同意这一观点,建议存储库与其相似的研究领域、数据类型或受众建立联系。“德意志教育研究数据网的一组存储库目前正在制定‘终止清单’模板,列出存储库可以在数据转移前准备的实用事项。”雷克说,“这有助于工作人员制定更正式的协议,例如谅解备忘录,或明确‘哪些部分的收藏可以转移,以及在什么条件下转移’,以应对快速行动的必要性。” 对于文献出版物,已存在一些保存网络。例如,斯坦福大学开发的开源项目LOCKSS(多副本保存数据)通过在全球多个图书馆服务器上保存内容的多个副本来实现数据的多重备份。这些图书馆每年支付费用以保存其收藏。CLOCKSS(受控多副本保存数据)则是一种“暗”档案,仅在特定触发事件如出版社停止运营或内容在预定时间内不可用时才向公众开放存档内容。 伦敦大学伯贝克学院的文学、技术和出版研究者马丁·伊夫(Martin Eve)强调,出版商应该积极参与这些服务。他去年发表的一项研究显示,在近750万篇研究论文中,有超过四分之一的论文没有得到适当的保存。“除非出版商意识到他们需要做什么来使系统工作,否则50年后我们将面临很多我们认为持久有效的链接突然消失的问题,知识传输系统也不再有效。”他说。 学术传播研究员胡安·巴勃罗·阿尔佩林(Juan Pablo Alperin)认为,较小型和资源不足的出版商往往难以承担类似CLOCKSS的服务费用,这主要影响全球南方的出版商。因此,必须为这些地区提供更多的选择,以确保他们在知识保存方面也能发挥重要作用。 业内专家普遍认为,建立多样化的、分散的数据保存网络势在必行,这不仅能提高数据的长期可用性,还能缓解个体存储库的压力。CLOCKSS和LOCKSS等服务已经为文本出版物提供了有效的解决方案,但如何确保所有研究人员尤其是资源有限的科研工作者都能受益于这些服务,仍是当前需要解决的关键问题。

Related Links