HyperAI超神经

OneRec – Ein Empfehlungsmodell auf der Basis von großen Sprachmodellen Der wesentliche Unterschied zwischen OneRec und traditionellen Empfehlungsalgorithmen besteht darin, dass OneRec ein End-to-End-Videosystem ist. Im Gegensatz zu den komplexen Pipelines der traditionellen Empfehlungssysteme, die Schritte wie Recall, grobe Rangfolge, Rangfolge und Neuanordnung umfassen, vereint OneRec all diese Funktionen in einem einzelnen Modell. Dieses Konzept wurde hauptsächlich durch den Erfolg aktueller großer Sprachmodelle (LLMs) inspiriert. Die Ersteller des Modells glauben, dass LLMs mit ausreichend großen Datenmengen und Modellgrößen exzellente Inferenzresultate erzielen können. Da das Empfehlungsfeld nicht an Daten mangelt, kann durch eine ausreichende Skalierung des Modells auch hier eine gute Leistung erreicht werden. Zudem führt die länge der Empfehlungspipelines bei großen Nutzerbasen zu einem hohen historischen Ballast und zu Chaos im gesamten System. Die GPU-Ressourcenverwendung vieler Online-Empfehlungsmodelle ist zudem sehr gering, was zu einer erheblichen Unterbeschäftigung der Ressourcen führt. Aus diesen Gründen wurde das OneRec-Modell entwickelt und erfolgreich bei Kuaishou Short Video implementiert. Das auffälligste Merkmal von OneRec ist seine generative Architektur, die Ähnlichkeiten mit LLMs aufweist. Anstelle von Empfehlungen werden Elemente generiert, was die Notwendigkeit für Schritte wie Recall und Rangfolge beseitigt. Dadurch wird das System tatsächlich end-to-end. Der Gesamtworkflow von OneRec ähnelt dem Training von LLMs und besteht aus drei Kernkomponenten: einem Tokenizer, einem Encoder und einem Decoder, sowie einem Belohnungssystem zur Feinabstimmung im nachfolgenden Training. Tokenizer In großen Empfehlungsszenarien sind die Anzahl der Elemente extrem hoch, von Millionen bis hin zu Hunderten von Millionen. Eine direkte Modellierung mit Element-IDs würde zu einer Verdünnung der Element-IDs führen. OneRec verwendet daher ein großes Modell namens miniCPM-V-8B, um Titel, Tags, automatische Spracherkennung (ASR), optische Zeichenerkennung (OCR), Coverbild und fünf gleichmäßig ausgewählte Frames eines Videos in hochdimensionale Merkmalsvektoren zu verwandeln. Anschließend wird ein leichtgewichtiges Modell namens QFormer verwendet, um diese hochdimensionalen Darstellungen zu komprimieren. Diese Kompression ermöglicht es, Informationen zu behalten und die nachfolgende Verarbeitung zu erleichtern. Um die semantische Distinktheit der Einbettungen zu verbessern, verwendet OneRec zwei Techniken: die Konstruktion von Elementpaaren und die Verwendung von LLaMa3 als Decoder, um das nächste Token für Videotitel vorherzusagen. Dies ermöglicht es, Video-Darstellungen zu lernen und sie mit dem tatsächlichen Nutzer-Element-Verhaltensverteilung abzugleichen. Encoder Der Encoder von OneRec integriert vier Arten von nutzerbezogenen Merkmalen: 1. Statische Nutzermerkmale: Dazu gehören Nutzer-ID, Alter und Geschlecht. Jedes Merkmal hat seine eigene Einbettung. 2. Kurzfristiger Verhaltenspfad: Dieser Pfad verarbeitet die jüngsten (L_s = 20) Nutzerinteraktionsdaten, einschließlich Video-ID, Autor-ID, Tags, Zeitstempel, Wiedergabezeit, Gesamtdauer des Videos und Interaktionslabels. Jede Eigenschaft wird einzeln eingebettet. 3. Positives Feedbackverhaltenspfad: Dieser Pfad verarbeitet Sequenzen von Nutzerinteraktionen, die hohe Engagements (wie Likes, Follows usw.) anzeigen, mit einer maximalen Länge von L_p = 256. 4. Lebenszyklus-Pfad: Dieser Pfad verarbeitet sehr lange historische Verhaltenssequenzen (bis zu 100,000 Einträge). Zuerst werden Einbettungen gemappt und verkettet, wie in Schritt (2) beschrieben. Anschließend wird ein QFormer für eine weitere Kompression verwendet, wobei (N_q = 128) Abfragevektoren und (N_l = 2) Schichten zur Generierung der endgültigen komprimierten Lebenszyklus-Eigenschaften verwendet werden. Der Encoder verbindet die von diesen vier Pfaden ausgegebenen Merkmale, fügt positionale Codierung hinzu und leitet sie in eine Reihe von standardmäßigen Transformer-Encoder-Schichten ein. Jede Schicht ermöglicht es allen Positionen, aufeinander "aufzumerken" (durch vollständig verbundene Selbst-Aufmerksamkeit), gefolgt von einer kleineren vorwärtsgerichteten Berechnung. Durch diese mehrstufige Verarbeitung kann OneRec eine umfassende Interessendarstellung erzeugen, die sowohl kurzfristige Trends als auch langfristige Vorlieben berücksichtigt. Dies bildet die Grundlage für personalisierte Empfehlungen. Decoder Bevor der Decoder erklärt wird, ist es wichtig, das Konzept der semantischen ID-Sequenz zu klären. Dies ist vergleichbar mit Satzsequenzen in natürlicher Sprache. Hierbei handelt es sich um eine Sequenz, die aus mehreren Tokens besteht, die durch den oben beschriebenen RQ-Kmeans-Algorithmus generiert wurden. In der Regel enthält diese Sequenz 5 bis 10 Videos. Während des Trainings wird jedes Token durch BOS (Begin of Sequence) getrennt. Der Decoder unterscheidet sich wenig vom Transformer-Decoder, außer dass die letzte Schicht durch eine MoE (Mixture of Experts)-Struktur ersetzt wird, um eine schnelle Inferenz zu ermöglichen. Während der Inferenz wird, beginnend mit dem Anfangssymbol (BOS), die erwartete Klicksequenz des Nutzers schrittweise inferiert. Es gibt eine Abbildung von semantischen IDs auf Video-IDs. Eine semantische ID gilt als gültig, wenn eine entsprechende Video-ID gefunden werden kann; andernfalls ist sie ungültig (d.h., die semantische ID existiert nicht im Contentpool). Reinforcement Learning Durch das obige Training kann das Modell Elemente generieren, die den Nutzerinteressen entsprechen. Aktuelle Empfehlungsdienste sind jedoch komplex und müssen Faktoren wie Dauer, Klicks, Konversionen und Vielfalt berücksichtigen. Dafür nutzt OneRec zunächst ein kleines neuronales Netz, um verschiedene Rückmeldungen wie Klicks, Likes und Wiedergabezeit in einen "P-Score" zu integrieren. Dann verwendet es einen Algorithmus namens ECPO (Early Clipped GRPO), um das Modell kontinuierlich anhand dieses Scores zu optimieren. Dies stellt sicher, dass die Empfehlungen des Modells besser den umfassenden Geschäftszielen entsprechen. Die Reinforcement-Learning-Phase von OneRec verbessert die GRPO-Methode von DeepSeek und schlägt die ECPO (Early Clipped GRPO)-Methode vor. Beim GRPO führt das Modell eine Strahlensuche durch, um mehrere Empfehlungspfade für einen Nutzer zu generieren, und nutzt dann ein Belohnungsmodell (RM), um jeder Empfehlungspfad einen Score zu geben. Bei negativen Verbesserungen kann der Policy-Verhältniswert von GRPO zu Gradientenexplosionen im OneRec-Szenario führen. Daher wurde ein Parameter (\eta) (auf 0.1 gesetzt) hinzugefügt, um das Training stabil zu halten. Bei positiven Verbesserungen bleibt ECPO konsistent mit GRPO. Training Während der Vorabtrainingsphase von OneRec sind die Nutzerverhaltensdarstellungen die Eingabe, und die Modellstruktur ist wie in Abbildung 4 gezeigt. Die Ausgabe ist die Elementsequenz des Zielnutzers, wobei jedes Ziel-Element einer dreistufigen semantischen ID entspricht, also 3 Tokens. In OneRecs Geschäftsmodell werden täglich 18 Milliarden Samples generiert, was 54 Milliarden Tokens im Decoder entspricht. Ein 0.935B-OneRec-Modell benötigt etwa 100 Milliarden Samples, um zu konvergieren. Das Post-Training umfasst Online-Training mit Echtzeitdaten, Rejection Sampling zur Feinabstimmung und Reinforcement Learning: 1. Rejection Sampling: Die 50% der Samples mit der kürzesten Wiedergabezeit werden gefiltert. 2. RL (Reinforcement Learning): Zufällig 1% der Nutzer aus den gefilterten Daten werden ausgewählt, um Reinforcement-Learning-Samples zu generieren. Diese Nutzer erzeugen 512 Elemente, die dann vom RM (Belohnungsmodell) bewertet und in das RL-Modell für das Training eingespeist werden. Performance Die reinen OneRec-Ergebnisse zeigen keine signifikanten Verbesserungen. Allerdings wird die Leistung durch das Hinzufügen des RM (Belohnungsmodells) erheblich gesteigert. Trotzdem hängt das RM von einem Belohnungsmodell ab, das ähnlich einem Feinrangierungsmodell strukturiert ist, sodass das generative Modell nicht vollständig von traditionellen Feinrangierungsmodellen unabhängig ist. Dennoch muss anerkannt werden, dass es besser performt als Feinrangierungsmodelle. In Kuaishous lokalen Lebensstil-Dienstleistungs-Szenario hat OneRec eine Steigerung des GMV um 21.01%, der Anzahl der Bestellungen um 17.89% und der Anzahl der kauftätigen Nutzer um 18.58% erreicht. Efzienterweise stieg die Rate der Erwerbung neuer Kunden um 23.02%. Industrieeinschätzung und Firmenprofil OneRec markiert einen wichtigen Schritt in der Entwicklung von Empfehlungssystemen, indem es die Komplexität reduziert und die Effizienz steigert. Die Integration von Reinforcement Learning ermöglicht es, komplexe Geschäftsziele besser zu berücksichtigen, ohne die Leistung des Modells zu beeinträchtigen. Kuaishou, ein führender Video-Teilen-Dienstleister, hat durch die Implementierung von OneRec nicht nur die Nutzerzufriedenheit gesteigert, sondern auch die Geschäftsziele optimiert. Die Firma zeichnet sich durch innovative Technologieentwicklungen und ein starkes Engagement für die Verbesserung der Nutzererfahrung aus. OneRec demonstriert, dass die Skalierung von Modellen in Verbindung mit effektiven Trainingsmethoden und Belohnungssystemen die Zukunft von Empfehlungssystemen sein könnte, insbesondere in Szenarien mit einer großen Nutzerbasis.

Kuaishou präsentiert OneRec: Ein neues empfehlendes Modell basierend auf großen Sprachmodellen.

Related Links