Command Palette
Search for a command to run...
Droplet3D: Alltagswissen aus Videos unterstützt die 3D-Generierung

Abstract
Skalierungsgesetze haben den Erfolg und das Potenzial von Modellen, die mit großen Datenmengen trainiert wurden, bei der kreativen Generierung in den Bereichen Text, Bild und Video bestätigt. Doch dieses Paradigma stößt im 3D-Bereich auf Datenknappheit, da im Vergleich zu den oben genannten Modalitäten im Internet deutlich weniger 3D-Daten verfügbar sind. Glücklicherweise existieren ausreichend Videos, die inhärente commonsense-Priorisierungen enthalten und somit ein alternatives Überwachungssignal bieten, um die Generalisierungsengpässe zu überwinden, die durch die begrenzte Verfügbarkeit nativer 3D-Daten verursacht werden. Einerseits liefern Videos, die mehrere Ansichten eines Objekts oder einer Szene aufzeichnen, eine räumliche Konsistenz-Prior für die 3D-Generierung. Andererseits ermöglicht die reichhaltige semantische Information in den Videos, dass die generierten Inhalte treuer den Textprompten entsprechen und semantisch plausibel sind. In dieser Arbeit untersuchen wir, wie die Video-Modality in der 3D-Asset-Generierung eingesetzt werden kann – von Datensätzen bis hin zu Modellen. Wir stellen Droplet3D-4M vor, den ersten großen Video-Datensatz mit Annotations auf Multi-View-Ebene, und trainieren das Modell Droplet3D, das sowohl Bild- als auch dichte Texteingaben unterstützt. Umfangreiche Experimente bestätigen die Wirksamkeit unseres Ansatzes und zeigen, dass er in der Lage ist, räumlich konsistente und semantisch plausible Inhalte zu erzeugen. Darüber hinaus zeigt sich im Gegensatz zu den gängigen 3D-Lösungen das Potenzial unseres Ansatzes für die Anwendung auf Szenenebene. Dies deutet darauf hin, dass die commonsense-Priorisierungen aus Videos die 3D-Erstellung erheblich unterstützen. Alle Ressourcen – einschließlich des Datensatzes, des Quellcodes, des technischen Frameworks und der Modellgewichte – sind öffentlich zugänglich: https://dropletx.github.io/.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.