HyperAIHyperAI

Command Palette

Search for a command to run...

Neu gestaltung der multimodalen Rezeptabfrage mit hierarchischen Transformers und selbstüberwachtem Lernen

Amaia Salvador Erhan Gundogdu Loris Bazzani Michael Donoser

Zusammenfassung

Die Kreuzmodale Rezeptabfrage hat in letzter Zeit erhebliche Aufmerksamkeit erfahren, da Essen eine zentrale Rolle im menschlichen Leben spielt und gleichzeitig eine große Menge an digitalen Kochrezepten sowie Nahrungsmittelbildern zur Verfügung steht, um maschinelle Lernmodelle zu trainieren. In dieser Arbeit überprüfen wir bestehende Ansätze für die kreuzmodale Rezeptabfrage und stellen ein vereinfachtes end-to-end-Modell vor, das auf bewährten und leistungsfähigen Encodern für Text und Bilder basiert. Wir führen einen hierarchischen Rezept-Transformer ein, der einzelne Rezeptkomponenten (Titel, Zutaten und Anweisungen) aufmerksam kodiert. Darüber hinaus schlagen wir eine selbstüberwachte Verlustfunktion vor, die auf Paaren einzelner Rezeptkomponenten berechnet wird und in der Lage ist, semantische Beziehungen innerhalb von Rezepten auszunutzen. Dadurch wird ein Training sowohl mit Bild-Rezept-Paaren als auch mit Rezepten allein ermöglicht. Wir führen eine umfassende Analyse und Ablationsstudien durch, um unsere Designentscheidungen zu validieren. Als Ergebnis erreicht unser vorgeschlagenes Verfahren auf dem Recipe1M-Datensatz die derzeit beste Leistung bei der kreuzmodalen Rezeptabfrage. Der Quellcode und die Modelle werden öffentlich zugänglich gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp