Neu gestaltung der multimodalen Rezeptabfrage mit hierarchischen Transformers und selbstüberwachtem Lernen

Die Kreuzmodale Rezeptabfrage hat in letzter Zeit erhebliche Aufmerksamkeit erfahren, da Essen eine zentrale Rolle im menschlichen Leben spielt und gleichzeitig eine große Menge an digitalen Kochrezepten sowie Nahrungsmittelbildern zur Verfügung steht, um maschinelle Lernmodelle zu trainieren. In dieser Arbeit überprüfen wir bestehende Ansätze für die kreuzmodale Rezeptabfrage und stellen ein vereinfachtes end-to-end-Modell vor, das auf bewährten und leistungsfähigen Encodern für Text und Bilder basiert. Wir führen einen hierarchischen Rezept-Transformer ein, der einzelne Rezeptkomponenten (Titel, Zutaten und Anweisungen) aufmerksam kodiert. Darüber hinaus schlagen wir eine selbstüberwachte Verlustfunktion vor, die auf Paaren einzelner Rezeptkomponenten berechnet wird und in der Lage ist, semantische Beziehungen innerhalb von Rezepten auszunutzen. Dadurch wird ein Training sowohl mit Bild-Rezept-Paaren als auch mit Rezepten allein ermöglicht. Wir führen eine umfassende Analyse und Ablationsstudien durch, um unsere Designentscheidungen zu validieren. Als Ergebnis erreicht unser vorgeschlagenes Verfahren auf dem Recipe1M-Datensatz die derzeit beste Leistung bei der kreuzmodalen Rezeptabfrage. Der Quellcode und die Modelle werden öffentlich zugänglich gemacht.