数据预处理 Data Preprocessing
数据预处理 (Data Preprocessing) 指在分析数据之前对数据进行操作、过滤或增强,通常是数据挖掘过程中的重要步骤。数据预处理的目标是提高数据的质量,使其更适合特定的数据挖掘任务。
数据预处理的常见步骤
数据预处理涉及清理和转换原始数据以使其适合分析。数据预处理的一些常见步骤包括:
- 数据清理:这涉及识别和纠正数据中的错误或不一致,例如缺失值、异常值和重复项。可以使用各种技术进行数据清理,例如插补、删除和转换。
- 数据集成:这涉及组合来自多个源的数据以创建统一的数据集。数据集成可能具有挑战性,因为它需要处理具有不同格式、结构和语义的数据。可以采用记录联动、数据融合等技术进行数据集成。
参考来源
【1】https://en.wikipedia.org/wiki/Data_Preprocessing
【2】https://www.geeksforgeeks.org/data-preprocessing-in-data-mining/