Search for a command to run...
ViLT: Vision-und-Sprach-Transformer ohne Faltung oder Regionssupervision