Open6DOR : Évaluation du réarrangement d'objets 6-DoF à instruction ouverte et approche basée sur un VLM

Dans ce travail, nous menons la construction pionnière d'une référence et d'une méthode pour la tâche de réarrangement d'objets 6-DoF en mode « open-instruction » sur table (Open6DOR). Plus précisément, nous avons collecté un jeu de données synthétique comprenant plus de 200 objets, et conçu soigneusement plus de 2400 tâches Open6DOR. Ces tâches sont réparties en trois catégories — Position-track, Rotation-track et 6-DoF-track — afin d'évaluer différemment les capacités des agents incarnés à prédire les positions et orientations des objets cibles. Par ailleurs, nous proposons une approche basée sur un modèle de langage visuel (VLM) pour Open6DOR, nommée Open6DOR-GPT, qui confère à GPT-4V une conscience 3D et un soutien par simulation, tout en exploitant ses forces en généralisation et en compréhension d'instructions pour cette tâche. En comparant les agents incarnés existants avec notre approche Open6DOR-GPT sur la référence Open6DOR proposée, nous constatons que celle-ci atteint des performances de pointe (state-of-the-art). Nous démontrons également son excellent comportement dans diverses expérimentations réelles. Nous prévoyons de publier la version définitive de la référence, accompagnée de notre méthode affinée, début septembre, et nous recommandons d'attendre cette date pour télécharger le jeu de données.