HyperAIHyperAI
vor 15 Tagen

Cross-Modal Retrieval and Synthesis (X-MRS): Den Modalitätsabstand bei der gemeinsamen Repräsentationslernung schließen

Ricardo Guerrero, Hai Xuan Pham, Vladimir Pavlovic
Cross-Modal Retrieval and Synthesis (X-MRS): Den Modalitätsabstand bei der gemeinsamen Repräsentationslernung schließen
Abstract

Die computergestützte Nahrungsmittelanalyse (Computational Food Analysis, CFA) erfordert naturgemäß multimodale Beweise für ein bestimmtes Nahrungsmittel, beispielsweise Bilder, Rezepttexte usw. Ein Schlüssel für die Realisierung von CFA ist die multimodale gemeinsame Darstellungslernung (multi-modal shared representation learning), die darauf abzielt, eine gemeinsame Darstellung mehrerer Datenperspektiven (Text und Bild) zu erzeugen. In dieser Arbeit stellen wir eine Methode für die cross-modale gemeinsame Darstellungslernung im Nahrungsmittelbereich vor, die die umfangreiche semantische Reichweite der Nahrungsmitteldaten bewahrt. Unser vorgeschlagener Ansatz kombiniert einen effektiven transformerbasierten mehrsprachigen Rezeptencoder mit einer traditionellen Bild-Embedding-Architektur. Dabei nutzen wir absichtlich unvollkommene mehrsprachige Übersetzungen, um das Modell effektiv zu regularisieren, gleichzeitig aber auch Funktionalität über mehrere Sprachen und Schriftsysteme hinweg zu ermöglichen. Experimentelle Analysen am öffentlichen Recipe1M-Datensatz zeigen, dass die durch die vorgeschlagene Methode erlernte Darstellung die derzeitigen State-of-the-Art-Verfahren (SOTA) bei Retrieval-Aufgaben deutlich übertrifft. Darüber hinaus wird die repräsentative Leistungsfähigkeit der erlernten Darstellung durch ein generatives Modell zur Nahrungsmittelbildsynthese demonstriert, das auf Rezept-Embeddings bedingt ist. Die synthetisierten Bilder können die visuelle Erscheinung der entsprechenden Originalproben effektiv wiedergeben, was darauf hindeutet, dass die erlernte Darstellung die gemeinsamen Semantiken sowohl des textuellen Rezepts als auch seines visuellen Inhalts erfassen kann und somit die Modalitätslücke signifikant verkleinert.

Cross-Modal Retrieval and Synthesis (X-MRS): Den Modalitätsabstand bei der gemeinsamen Repräsentationslernung schließen | Neueste Forschungsarbeiten | HyperAI