HyperAIHyperAI
vor 2 Monaten

Recipe1M+: Ein Datensatz zur Lern von multimodalen Einbettungen für Kochrezepte und Lebensmittelbilder

Javier Marin; Aritro Biswas; Ferda Ofli; Nicholas Hynes; Amaia Salvador; Yusuf Aytar; Ingmar Weber; Antonio Torralba
Recipe1M+: Ein Datensatz zur Lern von multimodalen Einbettungen für Kochrezepte und Lebensmittelbilder
Abstract

In dieser Arbeit stellen wir Recipe1M+ vor, ein neues großes, strukturiertes Korpus mit über einer Million Kochrezepten und 13 Millionen Lebensmittelbildern. Als die größte öffentlich verfügbare Sammlung von Rezeptdaten ermöglicht Recipe1M+ die Ausbildung von hochkapazitativen Modellen auf ausgerichteten, multimodalen Daten. Mit diesen Daten trainieren wir ein neuronales Netzwerk, um eine gemeinsame Einbettung von Rezepten und Bildern zu lernen, die beeindruckende Ergebnisse bei der Aufgabe der Bild-Rezept-Retrieval liefert. Darüber hinaus zeigen wir, dass Regularisierung durch Hinzufügen eines hochstufigen Klassifizierungsziels sowohl die Retrieval-Leistung verbessert, um mit der menschlichen Leistung konkurrieren zu können, als auch semantische Vektoralarithmetik ermöglicht. Wir vermuten, dass diese Einbettungen eine Grundlage für weitere Untersuchungen des Recipe1M+-Datensatzes sowie allgemein für das Thema Lebensmittel und Kochkunst bieten werden. Der Code, die Daten und die Modelle sind öffentlich verfügbar.