HyperAI

D'abord! GPT-2 Renforce La Couche Physique Des Communications Sans Fil, Et L'équipe De L'université De Pékin Propose Une Solution De Prédiction De Canal Basée Sur Un LLM Pré-entraîné

特色图像

Dans les communications sans fil, les signaux transmis via les canaux sans fil sont généralement affectés par l'atténuation de l'énergie, les interférences de bruit, etc., ce qui entraîne un certain degré de différence entre le signal reçu par l'utilisateur et le signal envoyé par la station de base, tout comme lorsque les gens voyagent, ils sont affectés par les conditions routières réelles et l'heure à laquelle ils arrivent à destination sera différente des attentes. Afin de garantir que les attentes soient cohérentes avec les conditions réelles, il est nécessaire de comprendre des informations précises sur l’état des routes lors des déplacements. Dans les communications sans fil, afin de garantir la précision et l'efficacité de la transmission du signal, il est nécessaire de comprendre les informations précises sur l'état du canal (CSI) et de restaurer le signal transmis d'origine en fonction du signal reçu.

La prédiction de canal est une technologie essentielle pour obtenir une acquisition CSI efficace.Il prédit les CSI futurs en fonction de la séquence CSI à des moments historiques, ce qui peut réduire considérablement l'estimation du canal et la surcharge de rétroaction. En particulier pour les systèmes de communication sans fil 5G/6G MIMO, la prédiction des canaux a montré une importance sans précédent. Cependant, les méthodes de prédiction de canal existantes basées sur des modèles paramétrés et l'apprentissage en profondeur présentent encore des problèmes tels qu'une faible précision de prédiction et une mauvaise généralisation, ce qui les rend difficiles à appliquer aux environnements de canal complexes réels.

Ces dernières années, avec le grand succès des grands modèles de langage (LLM) dans des domaines tels que le traitement du langage naturel, de plus en plus d’équipes de recherche ont concentré leur attention sur ce sujet. Cependant, l’application actuelle de grands modèles de langage dans les tâches de communication est encore limitée à des tâches telles que la compréhension du protocole linguistique, et il existe des doutes quant à leur capacité à renforcer les tâches de couche physique de communication sans fil non linguistiques.

d'abord,Les informations sur l'état du canal sont des données structurées de haute dimension avec des relations tridimensionnelles complexes « espace-temps-fréquence », ce qui augmente la complexité du traitement ;Deuxièmement,Il existe un écart de domaine entre les connaissances dans le domaine du canal et le domaine du langage naturel, ce qui augmente encore la difficulté du transfert de connaissances.

Pour surmonter les défis ci-dessus,L'équipe de Cheng Xiang de l'École d'électronique de l'Université de Pékin a proposé un schéma de prédiction de canal MIMO-OFDM LLM4CP basé sur un modèle de langage volumineux pré-entraîné.Il peut être appliqué aux systèmes de communication TDD (duplex à répartition dans le temps) et FDD (duplex à répartition en fréquence).

Les résultats associés ont été publiés dans la revue « Journal of Communications and Information Networks » sous le titre « LLM4CP : Adapting Large Language Models for Channel Prediction ».

Plus précisément, l'équipe de recherche a construit un réseau neuronal de prédiction de canal basé sur GPT-2 pré-entraîné, qui comprend un module de prétraitement, un module d'intégration, un module LLM pré-entraîné et un module de sortie, améliorant ainsi les capacités de prédiction et de généralisation du grand modèle de langage dans la prédiction de canal, créant davantage de possibilités de déploiement dans des scénarios d'application réels.

Points saillants de la recherche :

* Pour la première fois, le modèle de langage large pré-entraîné a été appliqué à la tâche de prédiction de canal, prouvant que le modèle de langage large pré-entraîné peut briser la forme du langage naturel et permettre la conception de la couche physique des communications sans fil. * Le réseau neuronal d'amélioration des caractéristiques du canal conçu aligne l'espace du canal avec l'espace des caractéristiques du grand modèle, réalisant un bon transfert des connaissances générales du grand modèle pré-entraîné sur la tâche de prédiction de canal.

* Les résultats de simulation montrent que le schéma proposé atteint les performances de prédiction d'échantillons complets et de quelques échantillons les plus avancées dans les tâches de prédiction de canaux TDD et FDD, et les performances de généralisation de fréquence sont nettement supérieures aux schémas existants, tout en ayant le même coût de temps de formation et d'inférence qu'un petit modèle d'apprentissage profond

Adresse du document :
https://ieeexplore.ieee.org/document/10582829


Téléchargement du jeu de données :

https://go.hyper.ai/G0plJ

Le projet open source « awesome-ai4s » rassemble plus de 100 interprétations d'articles AI4S et fournit des ensembles de données et des outils massifs :

https://github.com/hyperai/awesome-ai4s

Ensemble de données : Entièrement compatible 3GPP  standard

Au cours de la phase expérimentale de l’étude,L'équipe a utilisé le simulateur QuaDRiGa pour générer un ensemble de données de canal variable dans le temps conforme à la norme 3GPP pour la vérification des performances.

L'équipe a mis en place un système MISO-OFDM avec un UPA (réseau planaire uniforme) à double polarisation du côté de la station de base et une seule antenne omnidirectionnelle du côté de l'utilisateur, l'espacement des antennes étant la moitié de la longueur d'onde à la fréquence centrale. La bande passante des canaux de liaison montante et descendante est de 8,64 MHz et l'espacement des fréquences pilotes est de 180 kHz. Pour les modes TDD et FDD, la fréquence centrale des canaux de liaison montante et descendante est définie sur 2,4 GHz. Pour le mode FDD, les canaux de liaison montante et de liaison descendante sont adjacents. L’équipe de recherche a défini l’intervalle de fréquence pilote à 0,5 ms dans l’expérience de prédiction.
* TDD : Il s'agit d'un système de communication en mode duplex, utilisé pour séparer les canaux de réception et de transmission dans les systèmes de communication mobile.
* FDD : fait référence à la liaison montante (station mobile vers station de base) et à la liaison descendante (station de base vers station mobile) fonctionnant sur deux fréquences distinctes (avec certaines exigences d'espacement de fréquence).

L’étude a pris en compte le modèle de canal macro urbain 3GPP et les scénarios sans visibilité directe. Le nombre de clusters est de 21 et le nombre de chemins dans chaque cluster est de 20. La position initiale de l'utilisateur est randomisée et la trajectoire du mouvement est définie sur linéaire.

L'ensemble de données de formation et l'ensemble de données de validation contiennent respectivement 8 000 et 1 000 échantillons.La vitesse de l'utilisateur est répartie uniformément entre 10 et 100 km/h. L'ensemble de données de test contient 10 vitesses allant de 10 km/h à 100 km/h, avec 1 000 échantillons pour chaque vitesse.

Architecture du modèle : Prédiction de canal basée sur un modèle de langage volumineux

Les méthodes existantes de capture CSI en liaison descendante présentent deux inconvénients majeurs : premièrement, le processus d’estimation et de rétroaction CSI entraînera des coûts de calcul et de temps de transmission supplémentaires, conduisant à un « vieillissement du canal » dans les scénarios à haute dynamique ; deuxièmement, le pilote de liaison descendante supplémentaire occupe une partie des ressources temps-fréquence, ce qui réduira particulièrement l'efficacité spectrale du système FDD.

Le LLM4CP proposé dans cet article est une méthode de prédiction de canal MISO-OFDM basée sur LLM. Il prédit la future séquence CSI de liaison descendante en fonction de la séquence CSI de liaison montante historique.Il peut efficacement éviter la surcharge du pilote de liaison descendante et le retard de rétroaction.Il propose une approche plus pragmatique pour résoudre les deux lacunes ci-dessus.

Afin d'adapter le LLM pré-entraîné basé sur du texte au format matriciel complexe des données CSI, l'équipe de recherche a conçu des modules spécifiques pour LLM4CP pour la conversion de format et l'extraction de fonctionnalités, y compris le module de prétraitement (Preprocessor), le module d'intégration (Embedding), le module LLM pré-entraîné (Pre-trained LLM) et le module de sortie (Output), comme illustré dans la figure suivante :

Diagramme d'architecture réseau LLM4CP

Le module de prétraitement résout principalement les données structurées de haute dimension de la relation tridimensionnelle complexe « espace-temps-fréquence » de CSI.Pour résoudre le problème de haute dimension dans le domaine spatial, l'équipe a parallélisé la dimension de l'antenne, c'est-à-dire en prédisant le CSI de chaque paire d'antennes émettrices et réceptrices séparément, réduisant ainsi la surcharge du réseau tout en améliorant l'évolutivité de la tâche ; pour capturer pleinement les caractéristiques du domaine fréquentiel, l'équipe a pleinement pris en compte les caractéristiques structurées du canal et a introduit le domaine de retard pour caractériser directement les caractéristiques de retard multitrajet ; pour extraire efficacement les caractéristiques du domaine temporel, l'équipe a adopté le traitement par blocs pour capturer les caractéristiques de changement du domaine temporel local et réduire la complexité de calcul.

La conception du module d'intégration est principalement utilisée pour l'extraction préliminaire de fonctionnalités avant LLM.Y compris l'attention CSI et les intégrations positionnelles. En raison des différences importantes entre les informations textuelles et les informations CSI, le LLM pré-entraîné ne peut pas traiter directement les données non linguistiques. Par conséquent, l’équipe de recherche a essayé d’utiliser les capacités générales de modélisation de LLM pour mener à bien la tâche de prédiction de canal. Le module intégré est conçu pour traiter davantage les fonctionnalités prétraitées afin d'aligner l'espace des fonctionnalités du LLM pré-entraîné et de surmonter la différence de domaine.

Dans cette étude,L’équipe a choisi GPT-2 comme réseau principal LLM. L'épine dorsale de GPT-2 est constituée de couches d'intégration positionnelle apprenables et de décodeurs de transformateurs empilés, où le nombre de piles et les tailles de fonctionnalités peuvent être ajustés de manière flexible selon les besoins. Pendant le processus de formation, la couche d'attention multi-têtes et la couche d'alimentation avant du LLM pré-entraîné sont maintenues figées (comme indiqué dans la case bleue de la figure ci-dessus) pour conserver les connaissances générales dans le LLM pré-entraîné, tandis que l'ajout, la normalisation de couche et l'intégration de position sont affinés pour adapter le LLM à la tâche de prédiction de canal.

Il convient de noter que l’équipe a souligné que dans la méthode proposée dans cet article,Le réseau fédérateur GPT-2 peut également être remplacé de manière flexible par d’autres grands modèles de langage.

Enfin, le module de sortie vise à transformer les caractéristiques de sortie de LLM en résultats de prédiction finaux.

Résultats de la recherche : la précision de prédiction, le taux réalisable et le taux d'erreur binaire de LLM4CP sont meilleurs que les solutions existantes

Afin de vérifier la supériorité de la méthode proposée, l'équipe de recherche a comparé LLM4CP avec plusieurs méthodes de prédiction de canal basées sur des modèles ou des conditions d'apprentissage profond et sans interférence, notamment PAD, RNN, LSTM, GRU, CNN, Transformer et aucune prédiction, et a défini trois indicateurs de performance, à savoir NMSE (erreur quadratique moyenne normalisée), SE (efficacité spectrale) et BER (taux d'erreur binaire). Les résultats montrent que la précision de prédiction de canal, le débit réalisable et le taux d’erreur binaire de LLM4CP sont meilleurs que ceux des schémas de prédiction de canal existants.

L’équipe de recherche a comparé trois indicateurs de performance de LLM4CP avec d’autres méthodes dans les systèmes TDD et FDD.

Dans le système TDD,Les indices de performance SE et BER de LLM4CP sont respectivement de 7,036 bit·(s·Hz)⁻¹ et 0,0039 ;Dans le système FDD,Ils sont respectivement de 6,303 bit·(s·Hz)⁻¹ et 0,0347, comme le montre la figure ci-dessous :

Performances SE et BER de LLM4CP et d'autres méthodes pour les systèmes TDD
Performances SE et BER de LLM4CP et d'autres méthodes pour les systèmes FDD

Dans les systèmes TDD et FDD,LLM4CP atteint des performances SE et BER de pointe.

Lors du test de robustesse au bruit, LLM4CP présente le rapport signal/bruit le plus élevé avec le NMSE le plus bas, indiquant qu'il est très robuste au bruit CSI. Comme le montre la figure suivante :

Performances NMSE et rapport signal/bruit des CSI historiques dans les systèmes TDD
Performances NMSE et rapport signal/bruit des CSI historiques dans les systèmes FDD

L’entraînement avec un petit nombre d’échantillons joue un rôle crucial dans le déploiement rapide des modèles. L’équipe a testé la capacité de la méthode proposée à apprendre avec un petit nombre d’échantillons, en utilisant uniquement l’ensemble de données 10% pour la formation du réseau. Comparé à la formation d'échantillons complets,Les avantages de LLM4CP par rapport aux autres méthodes sont évidents dans le scénario de prédiction à quelques échantillons.

Dans le test de généralisation de fréquence, l'équipe a appliqué le modèle formé à 2,4 GHz dans le système TDD à la fréquence de 4,9 GHz avec moins de formation et zéro échantillon. Les résultats ont montré queLLM4CP n'a besoin que d'un petit nombre d'échantillons, 30, pour atteindre les performances prédictives du modèle paramétré.Il a démontré son excellente capacité de généralisation. Comme le montre la figure suivante :

Relation entre les performances de généralisation interfréquences du système TDD et la taille de l'échantillon

Une solution viable avec des performances élevées et un faible coût

L’investissement en coûts est un maillon clé dans la mise en œuvre du modèle dans des scénarios réels. L’étude a évalué la difficulté de déployer la méthode proposée dans des scénarios réels. La comparaison pertinente est illustrée dans la figure suivante :

Paramètres et coûts de formation

Étant donné que PAD est une méthode basée sur un modèle, le nombre de paramètres du modèle est relativement faible et aucun processus de formation n'est requis, mais il a le temps d'inférence le plus long en raison de sa grande complexité de traitement. Le temps de raisonnement de LLM est considérablement réduit par rapport à Transformer.Par conséquent, LLM4CP a également le potentiel de servir à la prédiction de canal en temps réel.

En outre, l’équipe a également évalué l’impact de la sélection de différents nombres de couches GPT-2 sur les performances de prédiction des canaux, le coût des paramètres et le temps d’inférence. Comme le montre la figure suivante :

Performances NMSE, paramètres réseau et temps d'interférence de LLM4CP avec différentes couches GPT-2

Lors des tests avec l'ensemble de données de formation 10% dans un environnement système TDD, il a été constaté que les paramètres du réseau et le temps d'inférence augmentaient avec le nombre de couches GPT-2 et obtenaient de meilleurs résultats dans la plage de test d'un modèle avec 6 couches GPT-2. Cela signifie que davantage de couches ne sont pas nécessairement bénéfiques pour la prédiction. Dans le déploiement réel, le type et la taille du réseau principal LLM doivent être sélectionnés en fonction des exigences de précision de prédiction et des contraintes de stockage des appareils et des ressources informatiques.

L'IA rend la communication illimitée pleine d'imagination

Avec le développement rapide des communications sans fil, en particulier à l’ère actuelle de la 5G et à la future ère de la 6G, l’importance de combiner l’IA avec les communications est évidente. Dans les domaines techniques connexes, l’application de la technologie de l’IA a déjà reçu une attention et des recherches généralisées dans l’industrie.

Par exemple, une étude intitulée « Une nouvelle méthode de prédiction de canal variable dans le temps basée sur l'apprentissage profond » a été publiée précédemment par l'équipe de Yang Lihua à l'Université des postes et télécommunications de Nanjing.Une méthode de prédiction de canal variable dans le temps basée sur l'apprentissage profond et adaptée aux scénarios mobiles à haut débit est proposée.Cette méthode est basée sur le réseau neuronal à rétropropagation (BP), qui effectue une formation hors ligne et une prédiction en ligne. L’article souligne que cette méthode peut améliorer considérablement la précision de prédiction des canaux variant dans le temps et présente une complexité de calcul moindre.
* Adresse du papier :

https://www.infocomm-journal.com/dxkx/CN/10.11959/j.issn.1000-0801.2021011

Ce qui diffère du passé, c’est que cette étude est la première à appliquer un grand modèle de langage à la conception de la couche physique des communications sans fil, ce qui ouvre sans aucun doute un précédent pour la combinaison de l’IA et de la technologie de communication.

Comme mentionné dans l’article, dans le passé, il n’y a jamais eu de tentative réussie d’appliquer un modèle de langage pré-entraîné à des tâches de langage non naturel.Il est prouvé que les grands modèles de langage pré-entraînés peuvent également percer la forme du langage pour permettre les communications sans fil.

Ce qui mérite d’être mentionné davantage, c’est qu’à travers cette expérience et cette tentative, le grand modèle linguistique ouvrira sûrement un nouveau chapitre d’autonomisation. Dans le même temps, avec l'aide de la capacité de raisonnement unique du grand modèle de langage, il peut également nous convaincre davantage qu'il accélérera inévitablement l'intégration de l'IA et des technologies verticales liées à l'industrie, trouvant ainsi un raccourci vers la combinaison de l'IA et de milliers d'industries.