Zuordnung von neuronalen Wortembeddings zu tiefen Bilddarstellungen unter Verwendung von Fisher-Vektoren

In den letzten Jahren hat das Problem der Zuordnung einer Sätze zu einem Bild erhebliche Aufmerksamkeit erfahren. Diese Arbeit treibt die Grenzen weiter voran und erreicht zusätzliche Fortschritte bei der Leistungsfähigkeit von Aufgaben zur Bildannotation und Bildsuche mittels Sätze. In dieser Studie verwenden wir den Fisher-Vektor als Sätzenrepräsentation, indem wir die Word2Vec-Einbettungen jedes Wortes im Satz poolen. Der Fisher-Vektor wird typischerweise als Gradient der Log-Likelihood von Deskriptoren bezüglich der Parameter eines Gaussischen Mischmodells (GMM) interpretiert. In dieser Arbeit präsentieren wir zwei weitere Mischmodelle und leiten deren Erwartung-Maximierung-(EM-) und Fisher-Vektor-Formulierungen ab. Das erste Modell ist ein Laplace-Mischmodell (LMM), das auf der Laplace-Verteilung basiert. Das zweite vorgestellte Mischmodell ist ein hybrides Gaussisch-Laplace-Mischmodell (HGLMM), das auf einem gewichteten geometrischen Mittelwert der Gaussischen und Laplace-Verteilung beruht. Schließlich erreichen wir durch die Verwendung der neu abgeleiteten Fisher-Vektoren basierend auf HGLMMs state-of-the-art-Ergebnisse sowohl bei der Bildannotation als auch bei der Bildsuche mittels Sätze auf vier Benchmarks: Pascal1K, Flickr8K, Flickr30K und COCO.