Erste! GPT-2 Stärkt Die Physikalische Schicht Der Drahtlosen Kommunikation, Und Das Team Der Peking-Universität Schlägt Eine Kanalvorhersagelösung Basierend Auf Vortrainiertem LLM Vor

Bei der drahtlosen Kommunikation werden die über drahtlose Kanäle übertragenen Signale üblicherweise durch Energiedämpfung, Rauschstörungen usw. beeinträchtigt, was zu einem gewissen Grad an Unterschieden zwischen dem vom Benutzer empfangenen Signal und dem von der Basisstation gesendeten Signal führt. Ähnlich verhält es sich mit Menschen, die auf Reisen von den tatsächlichen Straßenbedingungen beeinflusst werden und deren Ankunftszeit am Zielort von den Erwartungen abweicht. Um sicherzustellen, dass die Erwartungen den tatsächlichen Bedingungen entsprechen, ist es notwendig, auf Reisen genaue Informationen zum Straßenzustand zu kennen. Um bei der drahtlosen Kommunikation die Genauigkeit und Effektivität der Signalübertragung sicherzustellen, ist es notwendig, genaue Kanalzustandsinformationen (CSI) zu kennen und das ursprünglich gesendete Signal basierend auf dem empfangenen Signal wiederherzustellen.
Die Kanalvorhersage ist eine Kerntechnologie zur Erzielung einer effizienten CSI-Erfassung.Es prognostiziert zukünftige CSI basierend auf der CSI-Sequenz zu historischen Zeitpunkten, was den Kanalschätzungs- und Feedback-Overhead erheblich reduzieren kann. Insbesondere für drahtlose 5G/6G-MIMO-Kommunikationssysteme hat die Kanalvorhersage eine beispiellose Bedeutung erlangt. Allerdings weisen bestehende Methoden zur Kanalvorhersage auf der Grundlage parametrisierter Modelle und Deep Learning immer noch Probleme auf, wie etwa eine geringe Vorhersagegenauigkeit und mangelnde Generalisierung, was ihre Anwendung auf tatsächlich komplexe Kanalumgebungen erschwert.
Angesichts des großen Erfolgs großer Sprachmodelle (LLM) in Bereichen wie der Verarbeitung natürlicher Sprache haben in den letzten Jahren immer mehr Forschungsteams ihre Aufmerksamkeit auf dieses Thema gerichtet. Allerdings ist die derzeitige Anwendung großer Sprachmodelle bei Kommunikationsaufgaben noch immer auf Aufgaben wie das sprachbasierte Protokollverständnis beschränkt und es bestehen Zweifel, ob sie nichtsprachliche Aufgaben der physischen Schicht der drahtlosen Kommunikation ermöglichen können.
Erste,Kanalzustandsinformationen sind hochdimensionale strukturierte Daten mit komplexen dreidimensionalen „Raum-Zeit-Frequenz“-Beziehungen, was die Komplexität der Verarbeitung erhöht.Zweitens,Es besteht eine Domänenlücke zwischen dem Wissen im Kanalbereich und dem Bereich der natürlichen Sprache, was die Schwierigkeit der Wissensübertragung weiter erhöht.
Um die oben genannten Herausforderungen zu bewältigen,Das Team von Cheng Xiang von der School of Electronics der Peking-Universität schlug ein MIMO-OFDM-Kanalvorhersageschema LLM4CP basierend auf einem vortrainierten großen Sprachmodell vor.Es kann auf TDD- (Time Division Duplex) und FDD- (Frequency Division Duplex) Kommunikationssysteme angewendet werden.
Die entsprechenden Ergebnisse wurden in der Fachzeitschrift „Journal of Communications and Information Networks“ unter dem Titel „LLM4CP: Adapting Large Language Models for Channel Prediction“ veröffentlicht.
Insbesondere hat das Forschungsteam ein neuronales Netzwerk zur Kanalvorhersage auf Basis des vorab trainierten GPT-2 erstellt, das ein Vorverarbeitungsmodul, ein Einbettungsmodul, ein vorab trainiertes LLM-Modul und ein Ausgabemodul umfasst, wodurch die Vorhersage- und Generalisierungsfähigkeiten des großen Sprachmodells bei der Kanalvorhersage verbessert und mehr Möglichkeiten für den Einsatz in tatsächlichen Anwendungsszenarien geschaffen werden.
Forschungshighlights:
* Zum ersten Mal wurde das vorab trainierte große Sprachmodell auf die Kanalvorhersageaufgabe angewendet. Dies beweist, dass das vorab trainierte große Sprachmodell die natürliche Sprachform durchbrechen und den Entwurf der physischen Schicht der drahtlosen Kommunikation ermöglichen kann. * Das entworfene neuronale Netzwerk zur Verbesserung der Kanalmerkmale richtet den Kanalraum auf den Merkmalsraum des großen Modells aus, wodurch eine gute Übertragung des allgemeinen Wissens des vorab trainierten großen Modells auf die Kanalvorhersageaufgabe erreicht wird.
* Simulationsergebnisse zeigen, dass das vorgeschlagene Schema die fortschrittlichste Vorhersageleistung für vollständige und wenige Stichproben bei TDD- und FDD-Kanalvorhersageaufgaben erreicht und die Frequenzgeneralisierungsleistung bestehenden Schemata deutlich voraus ist, während der Trainings- und Inferenzzeitaufwand mit dem eines kleinen Deep-Learning-Modells vergleichbar ist.

Papieradresse:
https://ieeexplore.ieee.org/document/10582829
Datensatz-Download:
Das Open-Source-Projekt „awesome-ai4s“ vereint mehr als 100 AI4S-Papierinterpretationen und stellt umfangreiche Datensätze und Tools bereit:
https://github.com/hyperai/awesome-ai4s
Datensatz: Vollständig kompatibel 3GPP Standard
Während der experimentellen Phase der StudieDas Team verwendete den QuaDRiGa-Simulator, um einen zeitvariablen Kanaldatensatz zu generieren, der dem 3GPP-Standard zur Leistungsüberprüfung entspricht.
Das Team richtete ein MISO-OFDM-System mit einem dualpolarisierten UPA (Uniform Planar Array) auf der Basisstationsseite und einer einzelnen Rundstrahlantenne auf der Benutzerseite ein, wobei der Antennenabstand der halben Wellenlänge bei der Mittenfrequenz entspricht. Die Bandbreite der Uplink- und Downlink-Kanäle beträgt 8,64 MHz und der Pilotfrequenzabstand beträgt 180 kHz. Sowohl im TDD- als auch im FDD-Modus ist die Mittenfrequenz der Uplink- und Downlink-Kanäle auf 2,4 GHz eingestellt. Im FDD-Modus liegen die Uplink- und Downlink-Kanäle nebeneinander. Das Forschungsteam stellte im Vorhersageexperiment das Pilotfrequenzintervall auf 0,5 ms ein.
* TDD: Hierbei handelt es sich um ein Duplex-Kommunikationssystem, das zur Trennung von Empfangs- und Sendekanälen in Mobilkommunikationssystemen verwendet wird.
* FDD: bezieht sich auf den Uplink (Mobilstation zur Basisstation) und Downlink (Basisstation zur Mobilstation), die auf zwei getrennten Frequenzen betrieben werden (mit bestimmten Frequenzabstandsanforderungen).
Die Studie berücksichtigte das 3GPP-Modell für urbane Makrokanäle und Szenarien ohne Sichtverbindung. Die Anzahl der Cluster beträgt 21 und die Anzahl der Pfade in jedem Cluster beträgt 20. Die Anfangsposition des Benutzers wird zufällig festgelegt und die Bewegungsbahn ist auf linear eingestellt.
Der Trainingsdatensatz und der Validierungsdatensatz enthalten 8.000 bzw. 1.000 Beispiele.Die Benutzergeschwindigkeit ist gleichmäßig zwischen 10 und 100 km/h verteilt. Der Testdatensatz enthält 10 Geschwindigkeiten im Bereich von 10 km/h bis 100 km/h mit 1.000 Proben für jede Geschwindigkeit.
Modellarchitektur: Kanalvorhersage basierend auf einem großen Sprachmodell
Vorhandene Downlink-CSI-Erfassungsmethoden weisen zwei wesentliche Nachteile auf: Erstens verursacht der CSI-Schätz- und Feedbackprozess zusätzliche Rechen- und Übertragungszeitkosten, was in hochdynamischen Szenarien zu einer „Kanalalterung“ führt. zweitens belegt der zusätzliche Downlink-Pilot einen Teil der Zeit-Frequenz-Ressourcen, was insbesondere die Spektrumeffizienz des FDD-Systems verringert.
Das in diesem Artikel vorgeschlagene LLM4CP ist eine auf LLM basierende MISO-OFDM-Kanalvorhersagemethode. Es prognostiziert die zukünftige Downlink-CSI-Sequenz basierend auf der historischen Uplink-CSI-Sequenz.Dadurch können der Downlink-Pilot-Overhead und die Feedback-Verzögerung effektiv vermieden werden.Es bietet einen pragmatischeren Ansatz zur Lösung der beiden oben genannten Mängel.
Um das textbasierte vortrainierte LLM an das komplexe Matrixformat von CSI-Daten anzupassen, hat das Forschungsteam spezielle Module für LLM4CP zur Formatkonvertierung und Merkmalsextraktion entwickelt, darunter ein Vorverarbeitungsmodul (Preprocessor), ein Einbettungsmodul (Embedding), ein vortrainiertes LLM-Modul (Pre-trained LLM) und ein Ausgabemodul (Output), wie in der folgenden Abbildung dargestellt:

Das Vorverarbeitungsmodul löst hauptsächlich die hochdimensionalen strukturierten Daten der komplexen dreidimensionalen „Raum-Zeit-Frequenz“-Beziehung von CSI.Um das hochdimensionale Problem im räumlichen Bereich zu lösen, parallelisierte das Team die Antennendimension, d. h., es sagte den CSI jedes Paars von Sende- und Empfangsantennen separat voraus, wodurch der Netzwerk-Overhead reduziert und gleichzeitig die Skalierbarkeit der Aufgabe verbessert wurde. Um die Eigenschaften des Frequenzbereichs vollständig zu erfassen, berücksichtigte das Team die Eigenschaften der Kanalstruktur vollständig und führte den Verzögerungsbereich ein, um die Eigenschaften der Mehrwegeverzögerung direkt zu charakterisieren. Um die Zeitbereichsmerkmale effektiv zu extrahieren, verwendete das Team eine Blockverarbeitung, um die lokalen Änderungsmerkmale des Zeitbereichs zu erfassen und die Rechenkomplexität zu verringern.
Das Design des Einbettungsmoduls wird hauptsächlich zur vorläufigen Merkmalsextraktion vor LLM verwendet.Einschließlich CSI-Aufmerksamkeit und Positionseinbettungen. Aufgrund der erheblichen Unterschiede zwischen Textinformationen und CSI-Informationen kann das vortrainierte LLM nichtsprachliche Daten nicht direkt verarbeiten. Daher versuchte das Forschungsteam, die allgemeinen Modellierungsfunktionen von LLM zu nutzen, um die Kanalvorhersageaufgabe abzuschließen. Das eingebettete Modul ist dafür ausgelegt, die vorverarbeiteten Merkmale weiter zu verarbeiten, um den Merkmalsraum des vortrainierten LLM auszurichten und die Domänenunterschiede zu überwinden.
In dieser StudieDas Team wählte GPT-2 als LLM-Backbone-Netzwerk. Das Rückgrat von GPT-2 besteht aus lernfähigen Positionseinbettungsschichten und gestapelten Transformatordecodern, wobei die Anzahl der Stapel und die Merkmalsgrößen je nach Bedarf flexibel angepasst werden können. Während des Trainingsprozesses werden die Multi-Head-Attention-Schicht und die Feedforward-Schicht des vortrainierten LLM eingefroren (wie im blauen Kasten in der Abbildung oben gezeigt), um das allgemeine Wissen im vortrainierten LLM beizubehalten, während die Addition, Schichtnormalisierung und Positionseinbettung fein abgestimmt werden, um das LLM an die Kanalvorhersageaufgabe anzupassen.
Es ist erwähnenswert, dass das Team darauf hingewiesen hat, dass in der in diesem Artikel vorgeschlagenen MethodeDas GPT-2-Backbone-Netzwerk kann auch flexibel durch andere große Sprachmodelle ersetzt werden.
Schließlich zielt das Ausgabemodul darauf ab, die Ausgabefunktionen von LLM in die endgültigen Vorhersageergebnisse umzuwandeln.
Forschungsergebnisse: Die Vorhersagegenauigkeit, die erreichbare Rate und die Bitfehlerrate von LLM4CP sind besser als bei bestehenden Lösungen
Um die Überlegenheit der vorgeschlagenen Methode zu überprüfen, verglich das Forschungsteam LLM4CP mit mehreren Kanalvorhersagemethoden, die auf Modellen oder Deep Learning und störungsfreien Bedingungen basieren, darunter PAD, RNN, LSTM, GRU, CNN, Transformer und keine Vorhersage, und legte drei Leistungsindikatoren fest, nämlich NMSE (normalisierter mittlerer quadratischer Fehler), SE (spektrale Effizienz) und BER (Bitfehlerrate). Die Ergebnisse zeigen, dass die Kanalvorhersagegenauigkeit, die erreichbare Rate und die Bitfehlerrate von LLM4CP besser sind als die von bestehenden Kanalvorhersageschemata.
Das Forschungsteam verglich drei Leistungsindikatoren von LLM4CP mit anderen Methoden in TDD- und FDD-Systemen.
Im TDD-SystemDie SE- und BER-Leistungsindizes von LLM4CP betragen 7,036 Bit·(s·Hz)⁻¹ bzw. 0,0039;Im FDD-SystemSie betragen 6,303 bit·(s·Hz)⁻¹ bzw. 0,0347, wie in der folgenden Abbildung gezeigt:


In TDD- und FDD-SystemenLLM4CP erreicht modernste SE- und BER-Leistung.
Im Rauschrobustheitstest weist LLM4CP das höchste Signal-Rausch-Verhältnis mit dem niedrigsten NMSE auf, was darauf hindeutet, dass es gegenüber CSI-Rauschen sehr robust ist. Wie in der folgenden Abbildung dargestellt:


Das Training mit einer kleinen Anzahl von Beispielen spielt für die schnelle Bereitstellung von Modellen eine entscheidende Rolle. Das Team testete die Lernfähigkeit der vorgeschlagenen Methode mit einer kleinen Anzahl von Beispielen und verwendete für das Netzwerktraining nur den 10%-Datensatz. Im Vergleich zum vollständigen BeispieltrainingDie Vorteile von LLM4CP gegenüber anderen Methoden werden im Szenario der Vorhersage mit wenigen Stichproben deutlich.
Im Frequenzgeneralisierungstest wendete das Team das im TDD-System bei 2,4 GHz trainierte Modell mit weniger Training und null Stichproben auf die 4,9 GHz-Frequenz an. Die Ergebnisse zeigten, dassLLM4CP benötigt nur eine kleine Anzahl von Stichproben, nämlich 30, um die Vorhersageleistung des parametrisierten Modells zu erreichen.Es hat seine hervorragende Generalisierungsfähigkeit unter Beweis gestellt. Wie in der folgenden Abbildung dargestellt:

Eine praktikable Lösung mit hoher Leistung und niedrigen Kosten
Die Kosteninvestition ist ein Schlüsselelement bei der Implementierung des Modells in realen Szenarien. In der Studie wurde untersucht, wie schwierig es ist, die vorgeschlagene Methode in tatsächlichen Szenarien einzusetzen. Der entsprechende Vergleich ist in der folgenden Abbildung dargestellt:

Da es sich bei PAD um eine modellbasierte Methode handelt, ist die Anzahl der Modellparameter relativ gering und es ist kein Trainingsprozess erforderlich. Aufgrund der hohen Verarbeitungskomplexität ist die Inferenzzeit jedoch am längsten. Die Argumentationszeit von LLM ist im Vergleich zu Transformer erheblich reduziert.Daher verfügt LLM4CP auch über das Potenzial, zur Echtzeit-Kanalvorhersage zu dienen.
Darüber hinaus bewertete das Team auch die Auswirkungen der Auswahl unterschiedlicher Anzahlen von GPT-2-Schichten auf die Kanalvorhersageleistung, die Parameterkosten und die Inferenzzeit. Wie in der folgenden Abbildung dargestellt:

Beim Testen mit dem 10%-Trainingsdatensatz in einer TDD-Systemumgebung wurde festgestellt, dass sowohl die Netzwerkparameter als auch die Inferenzzeit mit der Anzahl der GPT-2-Schichten zunahmen und innerhalb des Testbereichs eines Modells mit 6 GPT-2-Schichten die beste Leistung erbrachten. Dies bedeutet, dass mehr Schichten für die Vorhersage nicht unbedingt von Vorteil sind. Bei der tatsächlichen Bereitstellung sollten Typ und Größe des LLM-Backbone-Netzwerks basierend auf den Anforderungen an die Vorhersagegenauigkeit und den Einschränkungen der Gerätespeicher- und Rechenressourcen ausgewählt werden.
KI macht grenzenlose Kommunikation voller Fantasie
Angesichts der rasanten Entwicklung der drahtlosen Kommunikation, insbesondere im aktuellen 5G-Zeitalter und im zukünftigen 6G-Zeitalter, ist die Bedeutung der Kombination von KI und Kommunikation offensichtlich. In verwandten technischen Bereichen hat die Anwendung der KI-Technologie in der Branche bereits große Aufmerksamkeit und Forschung erfahren.
So wurde beispielsweise zuvor eine Studie mit dem Titel „Eine neuartige, auf Deep Learning basierende Methode zur zeitvariablen Kanalvorhersage“ von Yang Lihuas Team an der Nanjing University of Posts and Telecommunications veröffentlicht.Es wird eine auf Deep Learning basierende, zeitvariable Kanalvorhersagemethode vorgeschlagen, die für mobile Hochgeschwindigkeitsszenarien geeignet ist.Diese Methode basiert auf dem Backpropagation-Neuralnetzwerk (BP), das Offline-Training und Online-Vorhersagen durchführt. In dem Artikel wird darauf hingewiesen, dass diese Methode die Vorhersagegenauigkeit zeitvariabler Kanäle erheblich verbessern kann und eine geringere Rechenkomplexität aufweist.
* Papieradresse:
https://www.infocomm-journal.com/dxkx/CN/10.11959/j.issn.1000-0801.2021011

Der Unterschied zu früheren Studien besteht darin, dass in dieser Studie erstmals ein großes Sprachmodell auf die Gestaltung der physischen Schicht der drahtlosen Kommunikation angewendet wird, was zweifellos einen Präzedenzfall für die Kombination von KI und Kommunikationstechnologie schafft.
Wie in dem Artikel erwähnt, gab es in der Vergangenheit nie einen erfolgreichen Versuch, ein vorab trainiertes großes Sprachmodell auf nicht-natürliche Sprachaufgaben anzuwenden.Es ist erwiesen, dass vorab trainierte große Sprachmodelle auch die Sprachform durchbrechen können, um drahtlose Kommunikation zu ermöglichen.
Erwähnenswerter ist, dass das große Sprachmodell durch dieses Experiment und diesen Versuch sicherlich ein neues Kapitel der Ermächtigung aufschlagen wird. Gleichzeitig kann uns die einzigartige Denkfähigkeit des großen Sprachmodells noch mehr davon überzeugen, dass die Integration von KI und vertikalen branchenbezogenen Technologien zwangsläufig beschleunigt wird und wir so eine Abkürzung für die Kombination von KI und Tausenden von Branchen finden.