Command Palette
Search for a command to run...
Repenser le modèle du monde de conduite comme générateur de données synthétiques pour les tâches de perception

Résumé
Les progrès récents dans les modèles mondiaux de conduite permettent la génération contrôlable de vidéos RGB de haute qualité ou de vidéos multimodales. Les méthodes existantes se concentrent principalement sur des métriques liées à la qualité de génération et à la contrôlabilité. Toutefois, elles négligent souvent l'évaluation des tâches de perception en aval, qui sont pourtant essentielles au bon fonctionnement des systèmes de conduite autonome. Les approches actuelles adoptent généralement une stratégie d'entraînement en deux étapes : pré-entraînement sur des données synthétiques, suivi d'un ajustement fin sur des données réelles, ce qui entraîne un nombre d'époques doublé par rapport à la méthode de base (entraînement uniquement sur des données réelles). Lorsque l'on double le nombre d'époques dans la méthode de base, l'avantage apporté par les données synthétiques devient négligeable. Afin de démontrer de manière exhaustive les bénéfices des données synthétiques, nous introduisons Dream4Drive, un nouveau cadre de génération de données synthétiques conçu pour améliorer les tâches de perception en aval. Dream4Drive décompose d'abord la vidéo d'entrée en plusieurs cartes d'orientation 3D, puis rend les ressources 3D sur ces cartes. Enfin, le modèle mondial de conduite est ajusté finement pour produire des vidéos photoréalistes multi-vues modifiées, pouvant être utilisées pour entraîner des modèles de perception en aval. Dream4Drive permet une flexibilité inédite dans la génération à grande échelle de scénarios extrêmes (corner cases) multi-vues, améliorant significativement la perception de ces cas rares dans les systèmes de conduite autonome. Pour favoriser les recherches futures, nous contribuons également à un grand ensemble de données d'objets 3D, nommé DriveObj3D, couvrant les catégories typiques des scénarios de conduite et permettant des éditions vidéo 3D-aware variées. Nous menons des expériences approfondies qui montrent que Dream4Drive peut efficacement améliorer les performances des modèles de perception en aval, quel que soit le nombre d'époques d'entraînement. Projet : https://wm-research.github.io/Dream4Drive/
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.