Search for a command to run...
Einbeziehung strukturierter Darstellungen in vortrainierte Vision- und Sprachmodelle mittels Szenengraphen