Klassifizierung von Textdaten mit vortrainierten Vision-Modellen durch Transfer Learning und Datentransformationen

Wissen wird von Menschen durch Erfahrung erworben, und es gibt keine Grenze zwischen den Arten von Wissen oder den Fähigkeitsniveaus, die wir gleichzeitig auf verschiedenen Aufgaben erreichen können. Bei neuronalen Netzen verhält es sich anders. Die Fortschritte in diesem Bereich sind äußerst aufgabenspezifisch und domänenspezifisch. Visuelle und sprachliche Aufgaben werden getrennt behandelt, mit unterschiedlichen Methoden und separaten Datensätzen. Aktuelle Ansätze zur Textklassifikation basieren in der Regel darauf, kontextuelle Embeddings für Eingabetextproben zu erzeugen, gefolgt von der Trainingsphase eines Klassifikators auf der eingebetteten Datensammlung. Transfer Learning wird im Allgemeinen stark genutzt, um kontextuelle Textembeddings für Eingabeproben in sprachbezogenen Aufgaben zu erhalten. In dieser Arbeit schlagen wir vor, das Wissen zu nutzen, das durch Benchmark-Vision-Modelle erworben wurde, die auf ImageNet trainiert wurden, um ein deutlich kleineres Architekturmodell zu befähigen, Texte zu klassifizieren. Dabei wird eine Datentransformationsmethode eingesetzt, um einen neuen Bild-Datensatz zu erstellen, bei dem jedes Bild eine Satz-Embedding aus den letzten sechs Schichten von BERT darstellt, die mittels eines t-SNE-basierten Verfahrens auf eine zweidimensionale Ebene projiziert wurden. Wir haben fünf Modelle trainiert, die aus frühen Schichten von Vision-Modellen bestehen, die auf ImageNet vortrainiert wurden, auf dem neu erstellten Bild-Datensatz, der für den IMDB-Datensatz mit den letzten sechs Schichten von BERT eingebettet wurde. Trotz der erheblichen Unterschiede zwischen den Datensätzen erzielen die experimentellen Ergebnisse dieses Ansatzes, der große vortrainierte Modelle sowohl im Bereich Sprache als auch Vision verbindet, sehr vielversprechende Ergebnisse – und zwar ohne zusätzlichen Rechenaufwand. Insbesondere wird die Sentiment-Analyse durch fünf verschiedene Modelle auf demselben Bild-Datensatz erreicht, der nach der Transformation der BERT-Embeddings in Graustufenbilder entstanden ist.Indexbegriffe: BERT, Faltungsneuronale Netze, Domänenanpassung, Bildklassifikation, Natürliche Sprachverarbeitung, t-SNE, Textklassifikation, Transfer Learning