HyperAIHyperAI
vor 2 Monaten

Kreuzmodale Retrieval im Kochkontext: Lernen semantischer Text-Bild-Embeddings

Micael Carvalho; Rémi Cadène; David Picard; Laure Soulier; Nicolas Thome; Matthieu Cord
Kreuzmodale Retrieval im Kochkontext: Lernen semantischer Text-Bild-Embeddings
Abstract

Die Entwicklung leistungsfähiger Werkzeuge, die Kochaktivitäten unterstützen, hat aufgrund der großen Menge an verfügbaren Daten sowie neuer Fortschritte im Maschinelles Lernen, die diese Daten analysieren können, rasch an Popularität gewonnen. In dieser Arbeit schlagen wir ein multimodales Retrieval-Modell vor, das visuelle und textuelle Daten (wie Bilder von Gerichten und deren Rezepte) in einem gemeinsamen Repräsentationsraum ausrichtet. Wir beschreiben ein effektives Lernverfahren, das in der Lage ist, große Problemstellungen zu bewältigen, und validieren es am Recipe1M-Datensatz, der fast 1 Million Bild-Rezept-Paare enthält. Wir zeigen die Effektivität unseres Ansatzes im Vergleich zu früheren Stand-der-Technik-Modellen und präsentieren qualitative Ergebnisse für Anwendungsbeispiele des computergestützten Kochens.

Kreuzmodale Retrieval im Kochkontext: Lernen semantischer Text-Bild-Embeddings | Neueste Forschungsarbeiten | HyperAI