Selbstüberwachte multimodale universelle Netze

Videos sind eine reiche Quelle für multimodale Überwachung. In dieser Arbeit lernen wir Repräsentationen durch Selbstüberwachung, indem wir drei Modalitäten nutzen, die natürlicherweise in Videos vorhanden sind: visuelle, auditive und sprachliche Ströme. Zu diesem Zweck führen wir den Begriff eines multimodalen universellen Netzes ein – ein Netzwerk, das mehrere Modalitäten verarbeiten kann und dessen Repräsentationen Downstream-Aufgaben in mehreren Modalitäten ermöglichen. Insbesondere untersuchen wir, wie man die Modalitäten am besten kombiniert, um feingranulare Repräsentationen der visuellen und auditiven Modalitäten aufrechtzuerhalten, während gleichzeitig Text in eine gemeinsame Einbettung integriert wird. Angetrieben von Vielseitigkeit führen wir auch einen neuen Deflationsprozess ein, sodass die Netzwerke problemlos auf visuelle Daten in Form von Videos oder statischen Bildern angewendet werden können. Wir zeigen, wie solche Netzwerke, die auf großen Sammlungen unannotierter Videodaten trainiert wurden, bei Video-, Video-Text-, Bild- und Audioaufgaben eingesetzt werden können. Mit diesen Repräsentationen erzielen wir den aktuellen Stand der Technik bei mehreren anspruchsvollen Benchmarks einschließlich UCF101, HMDB51, Kinetics600, AudioSet und ESC-50 im Vergleich zu früherer selbstüberwachender Arbeit. Unsere Modelle sind öffentlich verfügbar.