ColBERT: Einsatz von BERT-Sentence-Embeddings in parallelen neuronalen Netzen für die computergestützte Humorverarbeitung

Die Automatisierung der Humorerkennung und -bewertung weist interessante Anwendungsfälle in modernen Technologien auf, beispielsweise bei humanoiden Robotern, Chatbots und virtuellen Assistenten. In diesem Artikel stellen wir einen neuartigen Ansatz zur Erkennung und Bewertung von Humor in kurzen Texten vor, der auf einer etablierten linguistischen Theorie des Humors basiert. Die vorgeschlagene technische Methode beginnt mit der Aufteilung der Sätze im gegebenen Text und nutzt das BERT-Modell, um Embeddings für jeweils einen Satz zu generieren. Diese Embeddings werden dann jeweils in separate Zeilen verborgener Schichten eines neuronalen Netzes eingespeist (eine Zeile pro Satz), um latente Merkmale zu extrahieren. Abschließend werden die parallelen Zeilen zusammengefügt, um die Kongruenz und andere Beziehungen zwischen den Sätzen zu bestimmen und den Zielwert vorherzusagen. Zusätzlich zu diesem Beitrag präsentieren wir eine neuartige Datensammlung für die Humorerkennung, bestehend aus 200.000 formalen Kurztexten. Neben der Evaluierung unserer Methode auf dieser neuen Datensammlung nahmen wir an einem Live-Maschinenlern-Wettbewerb zur Bewertung von Humor in spanischsprachigen Tweets teil. Das vorgeschlagene Modell erzielte F1-Scores von 0,982 und 0,869 in den Humor-Erkennungsexperimenten, wodurch es sowohl allgemeine als auch state-of-the-art-Modelle übertrifft. Die Bewertung in zwei unterschiedlichen, kontrastierenden Szenarien bestätigt die Stärke und Robustheit des Modells und deutet auf zwei entscheidende Faktoren für hohe Genauigkeit bei dieser Aufgabe hin: 1) die Verwendung von Satz-Embeddings und 2) die Integration der linguistischen Struktur des Humors in die Architektur des vorgeschlagenen Modells.