AnglE-optimierte Text-Embeddings

Hochwertige Text-Embeddings sind entscheidend für die Verbesserung von Aufgaben zur semantischen Textähnlichkeit (STS), die zentrale Komponenten in Anwendungen von Large Language Models (LLM) darstellen. Ein häufig auftretendes Problem bei bestehenden Text-Embedding-Modellen ist das Verschwinden von Gradienten, das hauptsächlich auf deren Abhängigkeit von der Kosinusfunktion in der Optimierungszielfunktion zurückzuführen ist, welche Sättigungsbereiche aufweist. Um dieses Problem anzugehen, stellt dieser Artikel ein neuartiges, winkeloptimiertes Text-Embedding-Modell namens AnglE vor. Der Kerngedanke von AnglE besteht darin, eine Winkeloptimierung in einem komplexen Raum einzuführen. Dieser innovative Ansatz wirkt den nachteiligen Effekten der Sättigungsbereiche der Kosinusfunktion entgegen, die Gradienten beeinträchtigen und somit die Optimierung erschweren können. Zur umfassenden Evaluation von STS wurden Experimente an bestehenden Datensätzen für kurze Texte sowie an einem neu gesammelten Datensatz für lange Texte aus GitHub-Issues durchgeführt. Darüber hinaus untersuchen wir domain-spezifische STS-Szenarien mit begrenzten gelabelten Daten und erforschen, wie AnglE mit von LLMs annotierten Daten funktioniert. Umfangreiche Experimente wurden auf verschiedenen Aufgaben durchgeführt, darunter kurze-Text-STS, lange-Text-STS und domain-spezifische STS-Aufgaben. Die Ergebnisse zeigen, dass AnglE die derzeitigen State-of-the-Art (SOTA)-STS-Modelle, die die Sättigung der Kosinusfunktion ignorieren, übertrifft. Diese Ergebnisse belegen die Fähigkeit von AnglE, hochwertige Text-Embeddings zu generieren, und die Nützlichkeit der Winkeloptimierung für STS-Aufgaben.