Phrase-Grounding durch Soft-Label-Kettenbedingtes Markovmodell

Die Phrase-Grounding-Aufgabe zielt darauf ab, jede Entitätserwähnung in einer gegebenen Bildunterschrift einem entsprechenden Bereich in diesem Bild zuzuordnen. Obwohl es klare Abhängigkeiten zwischen den verschiedenen Erwähnungen der gleichen Bildunterschrift gibt, müssen vorherige strukturierte Vorhersagemethoden, die solche Abhängigkeiten erfassen möchten, auf approximative Inferenz oder nicht differenzierbare Verlustfunktionen zurückgreifen. In dieser Arbeit formulieren wir die Phrase-Grounding-Aufgabe als Sequenzbeschriftungsaufgabe, bei der wir Kandidatenbereiche als potentielle Beschriftungen behandeln und neuronale Ketten von bedingten Markow-Modellen (Conditional Random Fields, CRFs) verwenden, um Abhängigkeiten zwischen benachbarten Erwähnungen zu modellieren. Im Gegensatz zu standardmäßigen Sequenzbeschriftungsaufgaben ist die Phrase-Grounding-Aufgabe so definiert, dass mehrere korrekte Kandidatenbereiche existieren können. Um diese Vielzahl von Gold-Labels zu berücksichtigen, definieren wir sogenannte Soft-Label-Ketten-CRFs und präsentieren einen Algorithmus, der eine einfache End-to-End-Bildung ermöglicht. Unsere Methode etabliert einen neuen Stand der Technik bei der Phrase-Grounding-Aufgabe im Flickr30k Entities-Datensatz. Eine Analyse zeigt, dass unser Modell sowohl von den durch das CRF erfassten Entitätsabhängigkeiten als auch vom Soft-Label-Bildungsregime profitiert. Unser Code ist unter \url{github.com/liujch1998/SoftLabelCCRF} verfügbar.