Visions- und strukturierte-Sprache-Vortraining für multimodale Lebensmittel-Retrieval

Vision-Language Pretraining (VLP) und Fundierungsmodelle sind die bevorzugte Methode, um den Stand der Technik (SoTA) auf allgemeinen Benchmarks zu erreichen. Allerdings ist die Nutzung dieser leistungsfähigen Techniken für komplexere Vision-Sprach-Aufgaben, wie zum Beispiel in der Kochkunst, bei denen es sich um strukturiertere Eingabedaten handelt, noch wenig untersucht. In dieser Arbeit schlagen wir vor, diese Techniken für strukturierte Textbasierende Aufgaben im Bereich der computergestützten Kochkunst zu nutzen. Unsere Strategie, VLPCook genannt, transformiert zunächst vorhandene Bild-Text-Paare in Bild-Strukturtext-Paare. Dies ermöglicht es uns, unser VLPCook-Modell unter Verwendung von VLP-Zielfunktionen, die an die strukturierten Daten der resultierenden Datensätze angepasst sind, vorzutrainieren und anschließend an abgeleiteten computergestützten Kochaufgaben weiterzutrainieren. Während des Feintuning-Prozesses bereichern wir auch den visuellen Encoder durch das Nutzen vortrainierter Fundierungsmodelle (wie z.B. CLIP), um lokale und globale textuelle Kontextinformationen bereitzustellen. VLPCook erzielt einen signifikanten Vorteil gegenüber dem aktuellen Stand der Technik (+3,3 Recall@1 absoluter Verbesserung) bei der Aufgabe der kreuzmodalen Lebensmittelrecherche auf dem großen Recipe1M-Datensatz. Wir führen weitere Experimente mit VLP durch, um deren Bedeutung zu validieren, insbesondere auf dem Recipe1M+-Datensatz. Schließlich überprüfen wir die Generalisierungsfähigkeit des Ansatzes auf andere Aufgaben (d.h., Lebensmittelerkennung) und Bereiche mit strukturiertem Text wie dem Medizinbereich am ROCO-Datensatz. Der Code ist hier verfügbar: https://github.com/mshukor/VLPCook