Inverse Kochen: Rezeptgenerierung aus Lebensmittelbildern

Menschen genießen Food-Fotografie, weil sie Lebensmittel schätzen. Hinter jedem Gericht steckt eine Geschichte, die in einem komplexen Rezept beschrieben wird, und leider haben wir durch das Betrachten eines Bildes des Gerichts keinen Zugang zu dessen Zubereitungsprozess. Daher stellen wir in dieser Arbeit ein inverses Kochsystem vor, das aus Food-Bildern Kochrezepte rekonstruiert. Unser System prognostiziert Zutaten als Mengen mittels einer neuartigen Architektur, die ihre Abhängigkeiten modelliert, ohne eine bestimmte Reihenfolge aufzuzwingen, und generiert dann Kochanweisungen, indem es sowohl das Bild als auch die daraus abgeleiteten Zutaten berücksichtigt. Wir evaluieren das gesamte System umfassend anhand des großen Recipe1M-Datensatzes und zeigen, dass (1) wir die Leistung bei der Vorhersage von Zutaten im Vergleich zu früheren Baselines verbessern; (2) wir hochwertige Rezepte durch den Einsatz von Bild und Zutaten erzielen können; (3) unser System nach menschlichem Ermessen überzeugendere Rezepte als retrivale Ansätze produziert. Wir stellen Code und Modelle öffentlich zur Verfügung.