HyperAIHyperAI

Command Palette

Search for a command to run...

LeRobotDataset:v3.0 يُطلق نسخة مُحدثة لدعم مجموعات بيانات ضخمة في تعلم الروبوتات

أطلق فريق Hugging Face إصدار LeRobotDataset:v3.0، تطورًا كبيرًا في تنسيق البيانات المُخصص لتعلم الروبوتات، والذي يُعَدّ حجر الأساس في مكتبة lerobot. يُعدّ هذا الإصدار تحسينًا جوهريًا على الإصدار السابق (v2.1)، حيث حلّ مشكلة القيود المفروضة على نظام الملفات عند التعامل مع مجموعات بيانات ضخمة تضم ملايين_episodes. في الإصدار السابق، كانت كل episode مخزنة في ملف منفصل، ما أدى إلى تحميل كبير على النظام عند التوسع. أما في v3.0، فقد تم دمج عدة Episodes داخل ملفات واحدة، باستخدام بيانات وصفية مرتبطة (metadata) لاسترجاع المعلومات الخاصة بكل Episode بدقة، مع الحفاظ على الكفاءة في التخزين والوصول. يُقدّم التنسيق الجديد دعمًا مدمجًا لوضع التدفق (streaming)، مما يسمح بمعالجة مجموعات بيانات ضخمة مباشرة من Hugging Face Hub دون الحاجة إلى تنزيلها بالكامل إلى القرص الصلب. هذا يُسهّل تدريب النماذج على بيانات ضخمة بسلاسة، ويُعزز من إمكانية الوصول إلى البيانات في البيئات ذات الموارد المحدودة. تم تطوير تنسيق جديد يعتمد على تقسيم البيانات إلى ثلاث مكونات رئيسية: البيانات الجدولية (مثل حالة الروبوت والإجراءات) تُخزّن بتنسيق Apache Parquet، والبيانات المرئية (الفيديو) تُدمج في ملفات MP4 مُجمعة من عدة Episodes، بينما تُخزن المعلومات الوصفية (metadata) في ملفات JSON وParquet مُقسّمة لضمان الأداء وقابلية التوسع. تم تحسين هيكل الملفات لتجنب عدد كبير من الملفات الصغيرة، مع الحفاظ على إمكانية تحديد بداية ونهاية كل Episode بدقة من خلال البيانات الوصفية. يُمكن للمستخدمين تحويل أي مجموعة بيانات قديمة من v2.1 إلى التنسيق الجديد باستخدام أداة بسيطة بخط واحد: python -m lerobot.datasets.v30.convert_dataset_v21_to_v30 --repo-id=<HFUSER/DATASET_ID>، والتي تعمل على دمج الملفات وتحديث البيانات الوصفية تلقائيًا. يُنصح باستخدام الإصدار التجريبي من lerobot (v0.3.x) لتجربة الميزة مبكرًا، مع ملاحظة أن هذه النسخة غير مستقرة. يُمكن استخدام LeRobotDataset:v3.0 مع PyTorch عبر DataLoader، مع دعم مدمج لعمليات النافذة الزمنية (windowing)، حيث يمكن استرجاع إطارات زمنية متعددة حول نقطة زمنية معينة باستخدام delta_timestamps. هذا يُعدّ ضروريًا لتدريب النماذج على مهام مثل التعلم التسلسلي أو التعلم المبني على السلوك. بالإضافة إلى ذلك، يُمكن الوصول إلى البيانات في وضع التدفق المباشر عبر StreamingLeRobotDataset، مما يُمكّن من التدريب دون تخزين البيانات محليًا. يُعدّ هذا إنجازًا مهمًا نحو تبسيط الوصول إلى البيانات الضخمة في مجال الروبوتات، وتمكين المجتمع من التعلم من ملايين Episodes دون عوائق تقنية. يُشجّع الفريق المستخدمين على تجربة التنسيق الجديد، وتقديم ملاحظات عبر GitHub أو خادم Discord، مُعلنًا عن استعداده للتعاون مع المجتمع في تطوير المكتبة نحو الإصدار المستقر v0.4.0.

الروابط ذات الصلة