HyperAI超神经

Hugging Face 今日正式发布 LeRobotDataset:v3.0，标志着机器人学习数据集管理迈入新阶段。此前的 v2.1 版本采用“每条轨迹一个文件”的存储方式，在处理百万级轨迹时面临文件系统压力。v3.0 通过将多个轨迹合并至单一文件，并借助关系型元数据实现对单条轨迹的精准访问，显著提升了大规模数据的存储效率与可扩展性。新版本原生支持流式加载（streaming mode），用户无需将整个数据集下载至本地即可实时处理海量数据，极大降低了使用门槛，为分布式训练和远程协作提供了可能。Hugging Face 提供了一键转换工具，可将现有 v2.1 数据集一键升级至 v3.0 格式，便于社区快速迁移。 LeRobotDataset 专为机器人学习设计，统一管理多模态时序数据，包括机器人状态、动作、多路摄像头图像及操作日志等。其结构包含三大核心部分：使用 Apache Parquet 存储高频低维数据（如关节状态）；将视频帧按轨迹分组编码为 MP4 文件，减少文件数量；通过 JSON 元数据文件记录任务描述、机器人型号、采样频率等关键信息，支持在 Hugging Face Hub 上高效检索与索引。 v3.0 的数据组织方式采用分块存储策略：多个轨迹的数据与视频被合并至大文件中，通过元数据中的时间戳和边界信息实现精准定位。这种设计既减轻了文件系统负担，又保持了数据访问的灵活性。用户可通过 LeRobotDataset 或 StreamingLeRobotDataset 接口无缝加载数据，并结合 PyTorch 的 DataLoader 实现批量训练。此外，v3.0 内置时间窗口功能，支持以时间偏移方式获取历史观测（如前 0.2 秒、0.1 秒和当前帧），适用于强化学习与行为克隆等主流算法。示例代码展示了如何加载数据、构建批次，并在 GPU 上进行模型训练。此次发布是 lerobot 项目迈向 v0.4.0 稳定版的重要一步。Hugging Face 邀请社区使用最新版本，体验流式数据处理能力，并在 GitHub 或 Discord 上反馈使用体验。该版本为构建大规模、可共享、可扩展的机器人学习生态奠定了坚实基础。

相关链接

相关链接

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

Command Palette

LeRobotDataset v3.0重磅发布：大规模数据集赋能lerobot，推动机器人学习新纪元

相关链接

Command Palette

LeRobotDataset v3.0重磅发布：大规模数据集赋能lerobot，推动机器人学习新纪元

相关链接

Command Palette

LeRobotDataset v3.0重磅发布：大规模数据集赋能lerobot，推动机器人学习新纪元

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答