Search for a command to run...
UniVL: Ein einheitliches Video- und Sprach-Vortrainingsmodell für multimodale Verständnis und Generierung