HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 13 jours

Repenser le modèle du monde de conduite comme générateur de données synthétiques pour les tâches de perception

Repenser le modèle du monde de conduite comme générateur de données synthétiques pour les tâches de perception

Résumé

Les progrès récents dans les modèles mondiaux de conduite permettent la génération contrôlable de vidéos RGB de haute qualité ou de vidéos multimodales. Les méthodes existantes se concentrent principalement sur des métriques liées à la qualité de génération et à la contrôlabilité. Toutefois, elles négligent souvent l'évaluation des tâches de perception en aval, qui sont pourtant essentielles au bon fonctionnement des systèmes de conduite autonome. Les approches actuelles adoptent généralement une stratégie d'entraînement en deux étapes : pré-entraînement sur des données synthétiques, suivi d'un ajustement fin sur des données réelles, ce qui entraîne un nombre d'époques doublé par rapport à la méthode de base (entraînement uniquement sur des données réelles). Lorsque l'on double le nombre d'époques dans la méthode de base, l'avantage apporté par les données synthétiques devient négligeable. Afin de démontrer de manière exhaustive les bénéfices des données synthétiques, nous introduisons Dream4Drive, un nouveau cadre de génération de données synthétiques conçu pour améliorer les tâches de perception en aval. Dream4Drive décompose d'abord la vidéo d'entrée en plusieurs cartes d'orientation 3D, puis rend les ressources 3D sur ces cartes. Enfin, le modèle mondial de conduite est ajusté finement pour produire des vidéos photoréalistes multi-vues modifiées, pouvant être utilisées pour entraîner des modèles de perception en aval. Dream4Drive permet une flexibilité inédite dans la génération à grande échelle de scénarios extrêmes (corner cases) multi-vues, améliorant significativement la perception de ces cas rares dans les systèmes de conduite autonome. Pour favoriser les recherches futures, nous contribuons également à un grand ensemble de données d'objets 3D, nommé DriveObj3D, couvrant les catégories typiques des scénarios de conduite et permettant des éditions vidéo 3D-aware variées. Nous menons des expériences approfondies qui montrent que Dream4Drive peut efficacement améliorer les performances des modèles de perception en aval, quel que soit le nombre d'époques d'entraînement. Projet : https://wm-research.github.io/Dream4Drive/

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Repenser le modèle du monde de conduite comme générateur de données synthétiques pour les tâches de perception | Articles de recherche | HyperAI