HyperAIHyperAI

Command Palette

Search for a command to run...

Bild- und Textfusion für UPMC Food-101 unter Verwendung von BERT und CNNs

and Riccardo La Grassa Nicola Landro Gianmarco Ria Ignazio Gallo

Zusammenfassung

Die moderne digitale Welt wird zunehmend multimodal. Beim Surfen im Internet sind Bilder oft mit Texten verknüpft, weshalb Klassifikationsprobleme, die diese beiden Modalitäten kombinieren, sehr häufig auftreten.In dieser Arbeit untersuchen wir die multimodale Klassifikation unter Verwendung von textuellen Informationen und visuellen Darstellungen desselben Konzepts.Wir analysieren zwei grundlegende Ansätze zur multimodalen Fusion und adaptieren diese mittels Stacking-Techniken, um diese Art von Problem besser zu bewältigen.Hier verwenden wir den UPMC Food-101-Datensatz, der ein anspruchsvolles und verrauschtes multimodales Datenset darstellt und diese Kategorie multimodaler Probleme gut repräsentiert.Unsere Ergebnisse zeigen, dass der vorgeschlagene frühe Fusion-Ansatz in Kombination mit einem auf Stacking basierenden Ansatz die bisherigen State-of-the-Art-Ergebnisse auf dem verwendeten Datensatz übertreffen kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp