HyperAIHyperAI
vor 2 Monaten

Polysemes visuelle-semantische Einbettung für die cross-modale Retrieval

Yale Song; Mohammad Soleymani
Polysemes visuelle-semantische Einbettung für die cross-modale Retrieval
Abstract

Visuelle-semantische Einbettung (Visual-semantic embedding) strebt danach, einen gemeinsamen latenten Raum zu finden, in dem verwandte visuelle und textuelle Instanzen einander nahe sind. Die meisten aktuellen Methoden lernen injektive Einbettungsfunktionen, die eine Instanz auf einen einzelnen Punkt im gemeinsamen Raum abbilden. Leider kann eine injektive Einbettung polyseme Instanzen mit mehreren möglichen Bedeutungen nicht effektiv behandeln; bestenfalls würde sie eine durchschnittliche Darstellung verschiedener Bedeutungen finden. Dies erschwert ihre Anwendung in realen Szenarien, wo einzelne Instanzen und ihre multimodalen Assoziationen oft unklar sind. In dieser Arbeit stellen wir Polyseme-Instanz-Einbettungsnetze (PIE-Nets) vor, die mehrere und vielfältige Darstellungen einer Instanz berechnen, indem sie globale Kontextinformationen mit lokal geführten Merkmalen durch Multi-Head-Selbst-Aufmerksamkeit (Multi-head self-attention) und residuelles Lernen kombinieren. Um visuelle-semantische Einbettung zu erlernen, verbinden wir zwei PIE-Nets und optimieren sie gemeinsam im Rahmen des Mehrinstanzen-Lernens (Multiple instance learning). Die meisten bisherigen Arbeiten zur multimodal-referierenden Rückgewinnung konzentrieren sich auf Bild-Text-Daten. Hier untersuchen wir auch den anspruchsvolleren Fall der Video-Text-Rückgewinnung. Um weitere Forschung in der Video-Text-Rückgewinnung zu fördern, veröffentlichen wir einen neuen Datensatz von 50.000 Videosatzpaaren aus sozialen Medien, genannt MRW (my reaction when). Wir demonstrieren unseren Ansatz sowohl bei Bild-Text-Rückgewinnung als auch bei Video-Text-Rückgewinnung unter Verwendung des MS-COCO-, TGIF- und unseres neuen MRW-Datensatzes.

Polysemes visuelle-semantische Einbettung für die cross-modale Retrieval | Neueste Forschungsarbeiten | HyperAI