HyperAIHyperAI

Command Palette

Search for a command to run...

Cross-Modal Food Retrieval: Lernen einer gemeinsamen Einbettung von Nahrungsmittelbildern und Rezepten mit semantischer Konsistenz und Aufmerksamkeitsmechanismus

Hao Wang Doyen Sahoo Chenghao Liu Ke Shu Palakorn Achananuparp Ee-peng Lim Steven C. H. Hoi

Zusammenfassung

Die Rückgewinnung von Nahrungsmittelinformationen ist eine wichtige Aufgabe zur Analyse nahrungsmittelbezogener Daten, bei der es darum geht, relevante Informationen zum abgefragten Nahrungsmittel – beispielsweise Zutaten oder Kochanleitungen – zu ermitteln. In diesem Artikel untersuchen wir die cross-modale Retrieval-Aufgabe zwischen Nahrungsmittelfotos und Kochrezepten. Ziel ist es, Bilder und Rezepte in einem gemeinsamen Merkmalsraum zu repräsentieren, sodass die entsprechenden Bild-Rezept-Embeddings nahe beieinander liegen. Zwei zentrale Herausforderungen bei der Lösung dieses Problems sind (1) die große intra-modale Variabilität und die geringe inter-modale Variabilität bei cross-modalen Nahrungsmitteldaten sowie (2) die Schwierigkeit, differenzierbare Rezeptrepräsentationen zu erzeugen. Um diese beiden Probleme anzugehen, schlagen wir Netzwerke mit semantischer Konsistenz und Aufmerksamkeitsmechanismen (SCAN) vor, die die Embeddings beider Modaltitäten durch die Ausrichtung der Ausgabewahrscheinlichkeiten für semantische Klassen regularisieren. Darüber hinaus nutzen wir ein selbst-Attention-Mechanismus, um die Rezept-Embeddings zu verbessern. Wir evaluieren die Leistung des vorgeschlagenen Ansatzes am großen Datensatz Recipe1M und zeigen, dass wir mehrere state-of-the-art-Strategien für cross-modale Retrieval-Aufgaben im Bereich Nahrungsmittelfotos und Kochrezepte signifikant übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Cross-Modal Food Retrieval: Lernen einer gemeinsamen Einbettung von Nahrungsmittelbildern und Rezepten mit semantischer Konsistenz und Aufmerksamkeitsmechanismus | Paper | HyperAI