HyperAIHyperAI

Command Palette

Search for a command to run...

LeRobotDataset v3.0リリース:大規模ロボットデータセットのストリーミング対応で学習が進化

Hugging Faceが開発するロボット学習用ライブラリ「lerobot」のデータセット形式「LeRobotDataset」に、大幅な改善を加えたv3.0をリリースした。前バージョンv2では1エピソードごとにファイルを分けて保存していたが、数百万エピソード規模のデータセットではファイルシステムに負荷がかかり、処理が困難だった。v3.0では複数エピソードを1つのファイルにまとめる形式に変更し、メタデータを用いて個々のエピソード情報を正確に取得できるようにした。これにより、大規模データの効率的なストレージとアクセスが可能になった。 さらに、v3.0はストリーミングモードに対応しており、データをローカルにダウンロードせずにHugging Face Hubから直接処理できる。これは、膨大なデータを扱う際のハードウェア制約を大幅に軽減し、ロボット学習の民主化に貢献する。データは3つの主要構成要素に分かれており、タブラー型データ(関節角度や制御入力など)はApache Parquet、視覚データ(カメラ画像)はMP4にエンコードして保存。メタデータはJSON形式でエピソードの境界やフレームレート、タスク情報などを管理し、検索やフィルタリングに活用できる。 v2.1からv3.0への移行も簡単で、1行のコマンドで全データセットを自動変換可能。Pythonパッケージ「lerobot」の最新プレリリース版をインストールすれば、すぐに利用可能。v3.0はlerobot-v0.4.0で正式採用予定だが、既にコミュニティ向けに提供。PyTorchのDataLoaderと連携し、時間窓(delta_timestamps)機能で過去の観測データをまとめて取り出すことも可能。これは強化学習や行動クローン学習に適した構成だ。 今後は、大規模な実世界ロボットデータの共有と学習をさらに促進する。Hugging Face Hub上で公開されたデータセットは、v3.0形式で利用可能。開発チームは、コミュニティからのフィードバックを歓迎しており、GitHubやDiscordで協力や意見交換を呼びかけている。

関連リンク