Search for a command to run...
Eine empirische Studie zu End-to-End Video-Sprache-Transformern mit maskierter visueller Modellierung