Search for a command to run...
VATT: Transformers für multimodale selbstüberwachte Lernverfahren aus rohen Video-, Audio- und Textdaten