数据科学 Data Science
数据科学 (Data Science, 简称 DS) 旨在从大规模数据中提取有价值的信息、洞见和知识。这是一种多学科的方法,可以将数学、统计数据、人工智能以及计算机工程等领域的原则和实践结合起来,进而分析大量数据。这些分析可以帮助数据科学家提出和回答如下问题:发生了什么、为什么发生、将发生什么以及结果可以做什么。
数据科学的历史
虽然数据科学这一术语并不新鲜,但是其含义和内涵已随着时间的推移而发生了变化。这个词首次出现在 60 年代,用作统计数据的替代名称。直到 90 年后期,计算机科学专家才正式确定了这一术语,并将其视为独立的领域,其中包括三个方面:数据设计、数据收集和数据分析。又过了十年之后,数据科学这一词才得以在学术界之外使用。
数据科学的未来
人工智能 (AI) 和机器学习 (ML) 的创新使得数据处理更快速且更高效。行业需求在数据科学领域内催生了课程、学位以及工作岗位的生态系统。由于跨职能技能和经验的需求,数据科学呈现出预计将在未来几十年继续强劲增长的趋势。虽然数据科学的许多部分不属于 HPC 范围,但许多其他部分依赖 HPC 的强大计算能力来完成各种不同的数据分析任务。可以是 MPI,也可以是高度并行,具体取决于正在检查的数据科学中的工作负载。