LLaVA-Chef: Ein multimodales generatives Modell für Rezepte

Im rasch sich verändernden Umfeld des Online-Rezept-Sharings im globalisierten Kontext ist eine bemerkenswerte Steigerung der Forschung zur Verständnis- und Erzeugung von Rezepten zu beobachten. Kürzliche Fortschritte bei großen Sprachmodellen (LLMs) wie GPT-2 und LLaVA haben den Weg für Ansätze der Natürlichen Sprachverarbeitung (NLP) geebnet, die sich tiefer in verschiedene Aspekte von auf Lebensmittel bezogenen Aufgaben einarbeiten, darunter die Zutatenerkennung und die umfassende Generierung von Rezepten. Trotz beeindruckender Leistungsfähigkeit und multimodaler Anpassbarkeit von LLMs bleibt domänenspezifisches Training für ihre effektive Anwendung entscheidend. Diese Arbeit bewertet bestehende LLMs für die Rezeptgenerierung und stellt LLaVA-Chef vor, ein neues Modell, das auf einem sorgfältig zusammengestellten Datensatz vielfältiger Rezeptanweisungen in einem mehrstufigen Ansatz trainiert wurde. Zunächst optimieren wir die Zuordnung von visuellen Lebensmittelbild-Einbettungen zum Sprachraum. Danach passen wir LLaVA an den Lebensmittelbereich an, indem wir es mit relevanten Rezeptdaten feintunen. Als Drittes nutzen wir vielfältige Anweisungen, um das Verständnis des Modells für Rezepte zu verbessern. Schließlich erhöhen wir die sprachliche Qualität der generierten Rezepte durch Bestrafung des Modells mit einer benutzerdefinierten Verlustfunktion. LLaVA-Chef zeigt erstaunliche Verbesserungen gegenüber vortrainierten LLMs und früheren Arbeiten. Eine detaillierte qualitative Analyse ergibt, dass LLaVA-Chef detailliertere Rezepte mit präziseren Zutatenangaben generiert als existierende Ansätze.