HyperAIHyperAI
vor 16 Tagen

Open6DOR: Benchmarking Open-instruction 6-DoF Object Rearrangement und ein VLM-basierter Ansatz

{He Wang, Zhizheng Zhang, Qiyu Dai, Songlin Wei, Jiazhao Zhang, Xiaomeng Fang, Chaoyi Xu, Haoran Geng, Yufei Ding}
Open6DOR: Benchmarking Open-instruction 6-DoF Object Rearrangement und ein VLM-basierter Ansatz
Abstract

In dieser Arbeit treiben wir die Pionierarbeit bei der Entwicklung eines Benchmarks und einer Methode für table-top Open-instruction 6-DoF Object Rearrangement (Open6DOR) voran. Konkret sammeln wir einen synthetischen Datensatz mit über 200 Objekten und entwerfen sorgfältig mehr als 2400 Open6DOR-Aufgaben. Diese Aufgaben sind in die Kategorien Position-Track, Rotation-Track und 6-DoF-Track unterteilt, um verschiedene embodied Agents hinsichtlich ihrer Fähigkeit zur Vorhersage von Positionen und Rotationen von Zielobjekten zu evaluieren. Darüber hinaus stellen wir einen auf VLM basierenden Ansatz für Open6DOR vor, namens Open6DOR-GPT, der GPT-4V mit 3D-Bewusstsein und Simulationshilfe ausstattet, während gleichzeitig dessen Stärken in Bezug auf Generalisierbarkeit und Anweisungsfollowing für diese Aufgabe genutzt werden. Wir vergleichen bestehende embodied Agents mit unserem Open6DOR-GPT auf dem vorgeschlagenen Open6DOR-Benchmark und stellen fest, dass Open6DOR-GPT die derzeit beste Leistung erzielt. Zudem zeigen wir die beeindruckende Leistungsfähigkeit von Open6DOR-GPT in vielfältigen realen Experimenten. Wir planen, die finale Version des Benchmarks zusammen mit unserer verfeinerten Methode Anfang September freizugeben, und empfehlen daher, bis dahin zu warten, bevor man den Datensatz herunterlädt.