Search for a command to run...
CAT: Verbesserung multimodaler großer Sprachmodelle zur Beantwortung von Fragen in dynamischen audiovisuellen Szenarien