Any-to-Any Generation via Composable Diffusion

Wir präsentieren Composable Diffusion (CoDi), ein neuartiges generatives Modell, das in der Lage ist, beliebige Kombinationen von Ausgabemodalitäten – beispielsweise Sprache, Bild, Video oder Audio – aus beliebigen Kombinationen von Eingabemodalitäten zu generieren. Im Gegensatz zu bestehenden generativen KI-Systemen kann CoDi mehrere Modalitäten gleichzeitig und parallel generieren, wobei die Eingabe nicht auf eine Teilmenge von Modalitäten wie Text oder Bild beschränkt ist. Trotz der fehlenden Trainingsdatensätze für viele Kombinationen von Modalitäten schlagen wir vor, die Modalitäten sowohl im Eingabe- als auch im Ausgaberaum zu alignieren. Dadurch kann CoDi frei auf beliebige Eingabekombinationen bedingt werden und beliebige Gruppen von Modalitäten generieren, selbst wenn diese Kombinationen nicht in den Trainingsdaten vorkommen. CoDi nutzt eine neuartige komponierbare Generierungsstrategie, die durch die Schaffung eines gemeinsamen multimodalen Raums charakterisiert ist, der durch die Verknüpfung der Alignment-Strukturen im Diffusionsprozess entsteht. Dies ermöglicht die synchronisierte Generierung verflochtener Modalitäten, wie beispielsweise zeitlich synchronisierte Videos und Audiosignale. Hochgradig anpassbar und flexibel erreicht CoDi eine starke Qualität bei der gemeinsamen Generierung mehrerer Modalitäten und übertrifft oder erreicht die Leistung des bisherigen Standes der Technik für einmodale Synthese. Die Projektseite mit Demonstrationen und dem Quellcode ist unter https://codi-gen.github.io erreichbar.