HyperAIHyperAI

Command Palette

Search for a command to run...

Kreuzmodale Retrieval im Kochkontext: Lernen semantischer Text-Bild-Embeddings

Zusammenfassung

Die Entwicklung leistungsfähiger Werkzeuge, die Kochaktivitäten unterstützen, hat aufgrund der großen Menge an verfügbaren Daten sowie neuer Fortschritte im Maschinelles Lernen, die diese Daten analysieren können, rasch an Popularität gewonnen. In dieser Arbeit schlagen wir ein multimodales Retrieval-Modell vor, das visuelle und textuelle Daten (wie Bilder von Gerichten und deren Rezepte) in einem gemeinsamen Repräsentationsraum ausrichtet. Wir beschreiben ein effektives Lernverfahren, das in der Lage ist, große Problemstellungen zu bewältigen, und validieren es am Recipe1M-Datensatz, der fast 1 Million Bild-Rezept-Paare enthält. Wir zeigen die Effektivität unseres Ansatzes im Vergleich zu früheren Stand-der-Technik-Modellen und präsentieren qualitative Ergebnisse für Anwendungsbeispiele des computergestützten Kochens.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp