Search for a command to run...
ViLBERT: Vortrainierte aufgabenunabhängige visiolinguistische Repräsentationen für Vision-und-Sprachaufgaben