HyperAI
Command Palette
Search for a command to run...
WGO-Benchロボットビデオベンチマークデータセット
WGO-Benchは、Macrodata Labsが公開したロボット動画ベンチマークデータセットです。このデータセットは、ロボットや一人称視点のアクション動画をタイムスタンプ付きのサブタスク注釈に変換する視覚言語モデルの能力を評価することを目的としています。このデータセットは主に、境界検出とサブタスク注釈という2つのタスクに焦点を当てています。注釈ラベルは、動画クリップに映る完全なアクションイベントと状態変化を記述することに重点を置いています。
データセットの構成:
- この教材には100本のビデオエピソードが含まれており、743の主要なサブタスクと63の固有のタスク手順が網羅されています。
- データソースは、HomERの一人称視点ビデオ(25本)、RoboInter DROIDロボットアームのビデオ(50本)、およびRoboCOIN Galaxea R1 Liteヘッドマウントカメラのビデオ(25本)の3つのカテゴリに分類されます。
- データはParquet形式で保存され、各データ行にビデオファイル(MP4バイト)が直接埋め込まれています。
データフィールド:
- id: ビデオクリップの安定した一意の識別子。
- ビデオ: MP4形式のビデオバイナリデータを直接埋め込み
- 指示: このセグメントに対応する高レベルのタスク指示
- segments: 金色のラベルが付いたセグメントのリスト。各要素には、start_sec(開始時刻)、end_sec(終了時刻)、およびsubtask(サブタスクの説明)が含まれます。
- メタデータ:ソース固有の追加情報(JSON形式)
このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。