DAS KOLOSSEUM: EINE BENCHMARK FÜR DIE EVALUATION DER GENERALISIERUNG BEI ROBOTERMANIPULATION

Um effektive groß angelegte und realweltliche roboterische Anwendungen zu realisieren, müssen wir bewerten, wie gut unsere Roboterstrategien sich an Veränderungen der Umgebungsbedingungen anpassen. Leider bewerten die meisten Studien die Leistung von Robotern in Umgebungen, die dem Trainingsaufbau stark ähneln oder sogar identisch sind. Wir stellen THE COLOSSEUM vor, eine neuartige Simulationsbenchmark mit 20 verschiedenen Manipulationsaufgaben, die es ermöglicht, Modelle systematisch entlang 14 Achsen von Umgebungsstörungen zu evaluieren. Diese Störungen umfassen Änderungen in Farbe, Textur und Größe von Objekten, Tischen und Hintergründen; wir variieren auch Beleuchtung, Ablenkungsobjekte (distractors), physikalische Eigenschaften und Kameraposition. Mit THE COLOSSEUM vergleichen wir fünf Stand-of-the-Art-Manipulationsmodelle und zeigen, dass ihre Erfolgsrate bei diesen Störungsfaktoren zwischen 30-50 % abnimmt. Wenn mehrere Störungen gleichzeitig angewendet werden, sinkt die Erfolgsrate auf $\geq$75 %. Wir identifizieren, dass Änderungen in der Anzahl der Ablenkungsobjekte, der Farbe des Zielobjekts oder den Beleuchtungsbedingungen die Modellleistung am stärksten beeinträchtigen. Um die ökologische Validität unserer Ergebnisse zu überprüfen, zeigen wir, dass unsere Simulationsergebnisse mit ähnlichen Störungen in realweltlichen Experimenten korreliert sind ($\bar{R}^2 = 0.614$). Wir veröffentlichen den Quellcode für andere Nutzer von THE COLOSSEUM und stellen auch den Code bereit, um die zur Reproduktion der realweltlichen Störungen verwendeten 3D-Objekte auszudrucken. Letztlich hoffen wir, dass THE COLOSSEUM als Benchmark dienen wird, um Modellentscheidungen zu identifizieren, die systematisch die Generalisierungsfähigkeit für Manipulation verbessern. Siehe https://robot-colosseum.github.io/ für weitere Details.