Hugging Face HubでParquetファイルのアップロード・ダウンロード時間を大幅短縮する新機能「Content-Defined Chunking」
OpenAIの共同創業者アンドレイ・カーパティ氏は、AIの活用に過度に熱狂していると指摘し、特に監督なしに動作するAIエージェントの導入には注意が必要だと述べている。彼は、現在の大規模言語モデル(LLM)は人間が犯さないようなミスを引き起こすとし、「AIをリードで歩ませる」という表現で、AIの使用には慎重さが求められると強調した。LLMは人間の知能を模倣した「人間の精霊」とも表現され、事実を誤って生成したり、自己認識が欠如しているなどの特徴を持つと説明している。カーパティ氏は、AIのコード生成機能に過度に依存せず、具体的な指示を出すことが重要だと述べ、この手法を「VIBEコーディング」と呼んでいる。 一方、Hugging Face Hubは新しいストレージレイヤーXetを導入し、Parquetファイルのアップロード・ダウンロード時間を短縮している。Xetはコンテンツ定義チャンク(CDC)機能を活用し、データの重複削減を実現している。これにより、変更されたデータチャンクのみをアップロード・ダウンロードすることができ、ストレージコストと転送時間を削減する効果がある。PyArrowやPandasでCDCを有効化するには、use_content_defined_chunking引数をTrueに設定する必要がある。 実験では、データの再アップロードやカラムの追加・削除、型の変更、行の追加・削除、行グループサイズの変更、ファイル分割の違いなど、さまざまなシナリオをテストし、CDCがデータの重複削減に大きな効果を発揮していることが確認された。特に、行の挿入や削除では、従来の方式ではデータページが大きく変化し、重複削減効果が低下するが、CDCを活用することでその問題が改善され、転送量が大幅に削減されている。この機能は、データの読み書きを効率化し、Hugging Face Hubでのデータ操作をスケーラブルにしている。