Kreuzmodale Retrieval im Kochkontext: Lernen semantischer Text-Bild-Embeddings

Die Entwicklung leistungsfähiger Werkzeuge, die Kochaktivitäten unterstützen, hat aufgrund der großen Menge an verfügbaren Daten sowie neuer Fortschritte im Maschinelles Lernen, die diese Daten analysieren können, rasch an Popularität gewonnen. In dieser Arbeit schlagen wir ein multimodales Retrieval-Modell vor, das visuelle und textuelle Daten (wie Bilder von Gerichten und deren Rezepte) in einem gemeinsamen Repräsentationsraum ausrichtet. Wir beschreiben ein effektives Lernverfahren, das in der Lage ist, große Problemstellungen zu bewältigen, und validieren es am Recipe1M-Datensatz, der fast 1 Million Bild-Rezept-Paare enthält. Wir zeigen die Effektivität unseres Ansatzes im Vergleich zu früheren Stand-der-Technik-Modellen und präsentieren qualitative Ergebnisse für Anwendungsbeispiele des computergestützten Kochens.