vor 2 Monaten

Bild- und Textfusion für UPMC Food-101 unter Verwendung von BERT und CNNs

{and Riccardo La Grassa, Nicola Landro, Gianmarco Ria, Ignazio Gallo}

Details der Forschungsarbeit anzeigen View Code

Bild- und Textfusion für UPMC Food-101 unter Verwendung von BERT und CNNs

Abstract

Die moderne digitale Welt wird zunehmend multimodal. Beim Surfen im Internet sind Bilder oft mit Texten verknüpft, weshalb Klassifikationsprobleme, die diese beiden Modalitäten kombinieren, sehr häufig auftreten.In dieser Arbeit untersuchen wir die multimodale Klassifikation unter Verwendung von textuellen Informationen und visuellen Darstellungen desselben Konzepts.Wir analysieren zwei grundlegende Ansätze zur multimodalen Fusion und adaptieren diese mittels Stacking-Techniken, um diese Art von Problem besser zu bewältigen.Hier verwenden wir den UPMC Food-101-Datensatz, der ein anspruchsvolles und verrauschtes multimodales Datenset darstellt und diese Kategorie multimodaler Probleme gut repräsentiert.Unsere Ergebnisse zeigen, dass der vorgeschlagene frühe Fusion-Ansatz in Kombination mit einem auf Stacking basierenden Ansatz die bisherigen State-of-the-Art-Ergebnisse auf dem verwendeten Datensatz übertreffen kann.