Cross-Modal Food Retrieval: Lernen einer gemeinsamen Einbettung von Nahrungsmittelbildern und Rezepten mit semantischer Konsistenz und Aufmerksamkeitsmechanismus

Die Rückgewinnung von Nahrungsmittelinformationen ist eine wichtige Aufgabe zur Analyse nahrungsmittelbezogener Daten, bei der es darum geht, relevante Informationen zum abgefragten Nahrungsmittel – beispielsweise Zutaten oder Kochanleitungen – zu ermitteln. In diesem Artikel untersuchen wir die cross-modale Retrieval-Aufgabe zwischen Nahrungsmittelfotos und Kochrezepten. Ziel ist es, Bilder und Rezepte in einem gemeinsamen Merkmalsraum zu repräsentieren, sodass die entsprechenden Bild-Rezept-Embeddings nahe beieinander liegen. Zwei zentrale Herausforderungen bei der Lösung dieses Problems sind (1) die große intra-modale Variabilität und die geringe inter-modale Variabilität bei cross-modalen Nahrungsmitteldaten sowie (2) die Schwierigkeit, differenzierbare Rezeptrepräsentationen zu erzeugen. Um diese beiden Probleme anzugehen, schlagen wir Netzwerke mit semantischer Konsistenz und Aufmerksamkeitsmechanismen (SCAN) vor, die die Embeddings beider Modaltitäten durch die Ausrichtung der Ausgabewahrscheinlichkeiten für semantische Klassen regularisieren. Darüber hinaus nutzen wir ein selbst-Attention-Mechanismus, um die Rezept-Embeddings zu verbessern. Wir evaluieren die Leistung des vorgeschlagenen Ansatzes am großen Datensatz Recipe1M und zeigen, dass wir mehrere state-of-the-art-Strategien für cross-modale Retrieval-Aufgaben im Bereich Nahrungsmittelfotos und Kochrezepte signifikant übertrifft.