Command Palette
Search for a command to run...
WGO-Bench Robot Video Benchmark Dataset
Datum
Lizenz
Non-Commercial
WGO-Bench ist ein von Macrodata Labs veröffentlichter Benchmark-Datensatz für Robotervideos. Er dient der Evaluierung der Fähigkeit visueller Sprachmodelle, Roboter- und Ego-Perspektiven-Actionvideos in zeitgestempelte Teilaufgaben-Annotationen umzuwandeln. Der Datensatz konzentriert sich primär auf zwei Aufgaben: die Erkennung von Abgrenzungen und die Annotation von Teilaufgaben. Die Annotationen beschreiben die vollständigen Aktionsereignisse und Zustandsänderungen, die in den Videoclips sichtbar sind.
Datensatzzusammensetzung:
- Es umfasst 100 Videoepisoden mit 743 wichtigen Teilaufgaben und 63 individuellen Aufgabenanweisungen.
- Die Datenquellen sind in drei Kategorien unterteilt: HomER-Videos aus der Ich-Perspektive (25 Videos), RoboInter DROID-Roboterarmvideos (50 Videos) und RoboCOIN Galaxea R1 Lite-Kopfkameravideos (25 Videos).
- Die Daten werden im Parquet-Format gespeichert, wobei Videodateien (MP4-Bytes) direkt in jede Datenzeile eingebettet sind.
Datenfelder:
- id: Eine stabile, eindeutige Kennung für einen Videoclip.
- Video: Direkt eingebettete Videobinärdaten im MP4-Format
- Anweisung: Die übergeordnete Aufgabenanweisung, die diesem Abschnitt entspricht.
- Segmente: Eine Liste von Segmenten mit Gold-Label, wobei jedes Element start_sec (Startzeit), end_sec (Endzeit) und subtask (Unteraufgabenbeschreibung) enthält.
- Metadaten: Quellenspezifische Zusatzinformationen im JSON-Format
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.