Erwartung-Maximierung-kontrastives Lernen für kompakte Video-und-Sprach-Repräsentationen

Die meisten Ansätze zur Darstellungslernung von Video- und Sprache nutzen kontrastives Lernen, beispielsweise CLIP, um Videound Textmerkmale in einen gemeinsamen latenten Raum zu projizieren, basierend auf der semantischen Ähnlichkeit von Text-Video-Paaren. Allerdings sind solche gelernten gemeinsamen latenten Räume oft nicht optimal, und die Modalitätslücke zwischen visuellen und textuellen Darstellungen kann nicht vollständig geschlossen werden. In diesem Artikel stellen wir Expectation-Maximization Contrastive Learning (EMCL) vor, um kompakte Video-und-Sprache-Darstellungen zu lernen. Konkret verwenden wir den Expectation-Maximization-Algorithmus, um eine kompakte Menge von Basen für den latenten Raum zu finden, wobei die Merkmale effizient als lineare Kombinationen dieser Basen dargestellt werden können. Diese Zerlegung der Video-und-Sprache-Darstellungen reduziert den Rang des latenten Raums und erhöht dadurch die Ausdruckskraft der Semantik. Umfangreiche Experimente auf drei Standard-Datensätzen für Text-Video-Abfrage bestätigen, dass unser EMCL gegenüber früheren Methoden diskriminativere Video-und-Sprache-Darstellungen erzeugt und in allen Metriken deutlich besser als die bisher beste State-of-the-Art-Methode abschneidet. Noch vielversprechender ist, dass der vorgeschlagene Ansatz problemlos zur Leistungssteigerung bestehender Methoden eingesetzt werden kann – entweder als gemeinsam trainierter Schicht oder als sofort verwendbares Inferenzmodul ohne zusätzliche Trainingsphase – wodurch er leicht in beliebige bestehende Ansätze integriert werden kann.