Transformer-Decoder mit multimodaler Regularisierung für die cross-modale Nahrungsmittelretrieval

Die Kreuzmodalitäts-Bild-Rezept-Abfrage hat in den letzten Jahren erhebliche Aufmerksamkeit erfahren. Die meisten bestehenden Ansätze konzentrieren sich darauf, die Kreuzmodalitäts-Embeddings durch die Verwendung von einmodalen Encodern zu verbessern, was eine effiziente Abfrage in großen Datenbanken ermöglicht, wobei jedoch die Wechselwirkungen zwischen den Modalitäten über Kreuz-Attention, die rechenintensiver sind, außer Acht gelassen werden. Wir stellen einen neuen Abfrage-Framework vor, T-Food (Transformer-Decodierer mit multimodaler Regularisierung für Kreuzmodalitäts-Nahrungsmittel-Abfrage), der die Interaktion zwischen den Modalitäten in einer neuartigen Regularisierungsschemata nutzt, während zur Testzeit ausschließlich einmodale Encoder eingesetzt werden, um eine effiziente Abfrage zu gewährleisten. Zudem erfassen wir die inneren Abhängigkeiten zwischen Rezept-Entitäten mittels eines speziell entwickelten Rezept-Encoders und schlagen neue Varianten von Triplet-Loss-Funktionen mit dynamischen Margin-Parametern vor, die sich an die Schwierigkeit der Aufgabe anpassen. Schließlich nutzen wir die Stärke neuer Vision-and-Language-Pretraining-(VLP)-Modelle wie CLIP für den Bild-Encoder. Unser Ansatz übertrifft bestehende Methoden auf dem Recipe1M-Datensatz deutlich. Insbesondere erzielen wir absolute Verbesserungen von 8,1 % (72,6 R@1) und +10,9 % (44,6 R@1) auf den Testsets mit 1k und 10k Einträgen. Der Quellcode ist hier verfügbar: https://github.com/mshukor/TFood