HyperAIHyperAI
vor 13 Tagen

Schwere Tail-Darstellungen, Text-Polaritäts-Klassifikation und Daten-Augmentierung

Hamid Jalalzai, Pierre Colombo, Chloé Clavel, Eric Gaussier, Giovanna Varni, Emmanuel Vignon, Anne Sabourin
Schwere Tail-Darstellungen, Text-Polaritäts-Klassifikation und Daten-Augmentierung
Abstract

Die dominanten Ansätze zur Textdarstellung in der natürlichen Sprache basieren auf der Lernung von Embeddings an großen Korpora, die günstige Eigenschaften wie Kompositionalität und Distanzerhaltung aufweisen. In diesem Artikel entwickeln wir eine neuartige Methode, um ein schweres Tail-Embedding mit wünschenswerten Regularitätseigenschaften hinsichtlich der Verteilungsschweife zu erlernen, was es ermöglicht, Punkte, die weit entfernt vom Hauptanteil der Verteilung liegen, mittels des Rahmens der multivariaten Extremwerttheorie zu analysieren. Insbesondere erhalten wir einen speziell auf die Schwerpunkte des vorgeschlagenen Embeddings abgestimmten Klassifikator, dessen Leistung die des Baseline-Modells übertrifft. Dieser Klassifikator zeigt eine Skaleninvarianz-Eigenschaft, die wir nutzen, um eine neuartige Methode zur Textgenerierung für die labelerhaltende Datenaugmentation einzuführen. Numerische Experimente an synthetischen und realen Textdaten belegen die Relevanz des vorgeschlagenen Ansatzes und bestätigen, dass diese Methode sinnvolle Sätze mit kontrollierbaren Attributen – beispielsweise positivem oder negativem Sentiment – erzeugt.

Schwere Tail-Darstellungen, Text-Polaritäts-Klassifikation und Daten-Augmentierung | Neueste Forschungsarbeiten | HyperAI