vor 16 Tagen

Skalierung von Satz-Embeddings mit großen Sprachmodellen

Ting Jiang, Shaohan Huang, Zhongzhi Luan, Deqing Wang, Fuzhen Zhuang

Abstract

Große Sprachmodelle (LLMs) haben in letzter Zeit erhebliches Interesse geweckt. Mittels In-Context-Lernen erreichen LLMs beeindruckende Ergebnisse bei verschiedenen Aufgaben im Bereich der natürlichen Sprache. Die Anwendung von LLMs auf Satz-Embeddings bleibt jedoch ein aktives Forschungsfeld. In dieser Arbeit stellen wir eine auf In-Context-Lernen basierende Methode vor, die darauf abzielt, die Leistung von Satz-Embeddings zu verbessern. Unser Ansatz beinhaltet die Anpassung der bisherigen promptbasierten Darstellungsmethode für autoregressive Modelle, die Konstruktion einer Demonstrationsmenge, die es LLMs ermöglicht, In-Context-Lernen durchzuführen, sowie die Skalierung der LLMs auf verschiedene Modellgrößen. Durch umfangreiche Experimente zeigt sich, dass In-Context-Lernen es LLMs ermöglicht, hochwertige Satz-Embeddings ohne jegliche Feinabstimmung zu generieren. Dabei erreichen die Modelle eine Leistung, die mit aktuellen Contrastive-Learning-Methoden vergleichbar ist. Bei der Skalierung der Modellgröße stellen wir fest, dass eine Skalierung auf mehr als zehn Milliarden Parameter die Leistung bei Aufgaben zur semantischen Textähnlichkeit (STS) beeinträchtigt. Dennoch übertrifft das größte Modell alle anderen Varianten und erreicht eine neue SOTA-Leistung bei Transfer-Aufgaben. Außerdem feinjustieren wir LLMs mit der aktuellen Contrastive-Learning-Methodik, wobei das 2,7-Billionen-Parameter-Modell OPT, das unsere promptbasierte Methode integriert, die Leistung des 4,8-Billionen-Parameter-Modells ST5 übertrifft und neue SOTA-Ergebnisse bei STS-Aufgaben erzielt. Unser Code ist unter https://github.com/kongds/scaling_sentemb verfügbar.