HyperAIHyperAI

Command Palette

Search for a command to run...

Erwartung-Maximierung-kontrastives Lernen für kompakte Video-und-Sprach-Repräsentationen

Peng Jin Jinfa Huang Fenglin Liu Xian Wu Shen Ge Guoli Song David A. Clifton Jie Chen

Zusammenfassung

Die meisten Ansätze zur Darstellungslernung von Video- und Sprache nutzen kontrastives Lernen, beispielsweise CLIP, um Videound Textmerkmale in einen gemeinsamen latenten Raum zu projizieren, basierend auf der semantischen Ähnlichkeit von Text-Video-Paaren. Allerdings sind solche gelernten gemeinsamen latenten Räume oft nicht optimal, und die Modalitätslücke zwischen visuellen und textuellen Darstellungen kann nicht vollständig geschlossen werden. In diesem Artikel stellen wir Expectation-Maximization Contrastive Learning (EMCL) vor, um kompakte Video-und-Sprache-Darstellungen zu lernen. Konkret verwenden wir den Expectation-Maximization-Algorithmus, um eine kompakte Menge von Basen für den latenten Raum zu finden, wobei die Merkmale effizient als lineare Kombinationen dieser Basen dargestellt werden können. Diese Zerlegung der Video-und-Sprache-Darstellungen reduziert den Rang des latenten Raums und erhöht dadurch die Ausdruckskraft der Semantik. Umfangreiche Experimente auf drei Standard-Datensätzen für Text-Video-Abfrage bestätigen, dass unser EMCL gegenüber früheren Methoden diskriminativere Video-und-Sprache-Darstellungen erzeugt und in allen Metriken deutlich besser als die bisher beste State-of-the-Art-Methode abschneidet. Noch vielversprechender ist, dass der vorgeschlagene Ansatz problemlos zur Leistungssteigerung bestehender Methoden eingesetzt werden kann – entweder als gemeinsam trainierter Schicht oder als sofort verwendbares Inferenzmodul ohne zusätzliche Trainingsphase – wodurch er leicht in beliebige bestehende Ansätze integriert werden kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Erwartung-Maximierung-kontrastives Lernen für kompakte Video-und-Sprach-Repräsentationen | Paper | HyperAI