Command Palette
Search for a command to run...
Droplet3D : des prioris du sens commun extraits des vidéos facilitent la génération 3D

Résumé
Les lois d’échelle ont validé le succès et le potentiel des modèles entraînés sur de grandes quantités de données dans la génération créative à travers les domaines du texte, de l’image et de la vidéo. Toutefois, ce paradigme fait face à une pénurie de données dans le domaine 3D, en raison du faible volume de contenus 3D disponibles sur Internet par rapport aux modalités mentionnées précédemment. Heureusement, des vidéos abondantes existent, qui contiennent naturellement des connaissances préalables du sens commun, offrant ainsi un signal de supervision alternatif afin de surmonter le goulot d’étranglement en généralisation dû à la faible disponibilité des données 3D natives. D’un côté, les vidéos capturant plusieurs vues d’un objet ou d’une scène fournissent une contrainte de cohérence spatiale utile à la génération 3D. De l’autre, l’information sémantique riche qu’elles contiennent permet aux contenus générés d’être plus fidèles aux instructions textuelles et plus plausibles sur le plan sémantique. Ce papier explore la manière dont la modalité vidéo peut être exploitée dans la génération d’actifs 3D, couvrant à la fois les jeux de données et les modèles. Nous introduisons Droplet3D-4M, le premier grand jeu de données vidéo à annotation au niveau multi-vues, et entraînons Droplet3D, un modèle génératif capable de traiter à la fois des images et des entrées textuelles denses. Des expériences étendues valident l’efficacité de notre approche, démontrant sa capacité à produire des contenus spatialement cohérents et sémantiquement plausibles. De plus, contrairement aux solutions 3D actuellement dominantes, notre méthode montre un potentiel d’extension vers des applications à l’échelle de scènes. Cela indique que les connaissances préalables du sens commun issues des vidéos facilitent significativement la création 3D. Nous avons rendu publics tous les ressources, y compris le jeu de données, le code, le cadre technique et les poids du modèle : https://dropletx.github.io/.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.