HyperAIHyperAI

Command Palette

Search for a command to run...

VLCDoC: Vision-Language Contrastive Pre-Training Modell für die cross-modale Dokumentenklassifikation

Souhail Bakkali Zuheng Ming Mickael Coustaty Marçal Rusiñol Oriol Ramos Terrades

Zusammenfassung

Die multimodale Lernmethode auf Basis von Dokumentendaten hat in letzter Zeit erheblichen Erfolg erzielt, da sie es ermöglicht, semantisch bedeutungsvolle Merkmale als Vorwissen in eine nachgeschaltete, lernbare Aufgabe vorzutrainieren. In diesem Paper nähern wir das Problem der Dokumentklassifikation durch die Lernung von Kreuzmodaldarstellungen mittels Sprach- und Visuelleinflüsse an, wobei sowohl intra- als auch intermodale Beziehungen berücksichtigt werden. Im Gegensatz zu herkömmlichen Ansätzen, bei denen Merkmale verschiedener Modi in einen gemeinsamen Darstellungsraum verschmolzen werden, nutzt der vorgeschlagene Ansatz hochwertige Interaktionen und lernt relevante semantische Informationen durch effektive Aufmerksamkeitsflüsse innerhalb und zwischen den Modalitäten. Das vorgeschlagene Lernziel ist zwischen Aufgaben der intra- und intermodalen Ausrichtung angelegt, wobei die Ähnlichkeitsverteilung pro Aufgabe durch Kontraktion positiver Stichprobenpaare und gleichzeitige Kontrastierung negativer Paare im gemeinsamen Darstellungsraum berechnet wird. Umfassende Experimente auf öffentlichen Dokumentklassifikationsdatensätzen belegen die Wirksamkeit und Generalisierbarkeit unseres Modells sowohl auf datenarmen als auch auf großskaligen Datensätzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp