HyperAI超神经
Back to Headlines

Parquet内容定义分块技术优化大数据存储效率

8 days ago

Hugging Face Hub近日推出了一项新功能,即Apache Arrow的Parquet内容定义分块(Parquet Content-Defined Chunking,简称CDC)。这一功能结合其新推出的Xet存储层,能够显著减少数据上传和下载的时间与成本。通过内容定义分块,Parquet文件可以更高效地进行数据去重,仅传输或下载发生改变的数据块,从而提升数据处理效率。 Parquet是一种列式存储格式,广泛用于数据工程。目前,Hugging Face已托管近21PB的数据集,其中Parquet文件占4PB以上。Xet存储层通过内容定义分块技术,能够有效减少重复数据的存储,提升传输速度。然而,Parquet文件的结构和压缩方式可能导致微小的数据变化产生不同的字节表示,从而影响去重效果。Parquet CDC通过按内容分块,减少这种差异,提升去重效率。 在实际应用中,用户可以通过在写入Parquet文件时设置use_content_defined_chunking=True来启用该功能,支持PyArrow和Pandas两种方式。测试显示,在添加或删除列、修改列类型、追加或插入行等场景下,使用Parquet CDC后,数据传输量大幅减少,去重效果显著提升。 此外,Parquet CDC在调整行组大小和文件分片时同样有效,即使数据分割方式不同,也能实现高效去重。用户可将Hugging Face仓库从Git LFS迁移到Xet,以获得更好的性能和存储优化。这一技术为AI训练和数据处理提供了更高效、更经济的解决方案,有助于提升整体数据工作流的效率。

Related Links