HyperAIHyperAI
vor 11 Tagen

VLCDoC: Vision-Language Contrastive Pre-Training Modell für die cross-modale Dokumentenklassifikation

Souhail Bakkali, Zuheng Ming, Mickael Coustaty, Marçal Rusiñol, Oriol Ramos Terrades
VLCDoC: Vision-Language Contrastive Pre-Training Modell für die cross-modale Dokumentenklassifikation
Abstract

Die multimodale Lernmethode auf Basis von Dokumentendaten hat in letzter Zeit erheblichen Erfolg erzielt, da sie es ermöglicht, semantisch bedeutungsvolle Merkmale als Vorwissen in eine nachgeschaltete, lernbare Aufgabe vorzutrainieren. In diesem Paper nähern wir das Problem der Dokumentklassifikation durch die Lernung von Kreuzmodaldarstellungen mittels Sprach- und Visuelleinflüsse an, wobei sowohl intra- als auch intermodale Beziehungen berücksichtigt werden. Im Gegensatz zu herkömmlichen Ansätzen, bei denen Merkmale verschiedener Modi in einen gemeinsamen Darstellungsraum verschmolzen werden, nutzt der vorgeschlagene Ansatz hochwertige Interaktionen und lernt relevante semantische Informationen durch effektive Aufmerksamkeitsflüsse innerhalb und zwischen den Modalitäten. Das vorgeschlagene Lernziel ist zwischen Aufgaben der intra- und intermodalen Ausrichtung angelegt, wobei die Ähnlichkeitsverteilung pro Aufgabe durch Kontraktion positiver Stichprobenpaare und gleichzeitige Kontrastierung negativer Paare im gemeinsamen Darstellungsraum berechnet wird. Umfassende Experimente auf öffentlichen Dokumentklassifikationsdatensätzen belegen die Wirksamkeit und Generalisierbarkeit unseres Modells sowohl auf datenarmen als auch auf großskaligen Datensätzen.

VLCDoC: Vision-Language Contrastive Pre-Training Modell für die cross-modale Dokumentenklassifikation | Neueste Forschungsarbeiten | HyperAI