RLAS-BIABC : Une sélection de réponses fondée sur l'apprentissage par renforcement utilisant le modèle BERT amélioré par un algorithme ABC amélioré

La sélection de réponses (AS) constitue une tâche sous-jacente essentielle dans le cadre de la réponse à des questions dans un domaine ouvert (QA). Ce papier propose une méthode nommée RLAS-BIABC pour AS, fondée sur un modèle à mémoire à court et long terme (LSTM) basé sur le mécanisme d’attention, ainsi que sur des embeddings de mots issus du modèle bidirectionnel BERT (Bidirectional Encoder Representations from Transformers), enrichis par un algorithme d’abeilles artificielles amélioré (ABC) pour le préentraînement et par un algorithme d’apprentissage par renforcement pour l’entraînement de l’algorithme de rétropropagation (BP). BERT peut être intégré dans des tâches ultérieures et affiné en tant qu’architecture spécifique à la tâche, permettant ainsi de capturer divers effets linguistiques. Les algorithmes existants entraînent généralement le modèle AS à l’aide de paires positif-négatif, afin de construire un classificateur à deux classes : une paire positive comprend une question et une réponse véritable, tandis qu’une paire négative inclut une question et une réponse fausse. La sortie attendue est 1 pour les paires positives et 0 pour les paires négatives. En pratique, le nombre de paires négatives excède souvent celui des paires positives, ce qui entraîne un déséquilibre de classification gravement préjudiciable à la performance du système. Pour remédier à ce problème, nous modélisons la classification comme un processus décisionnel séquentiel, dans lequel l’agent sélectionne un échantillon à chaque étape et le classe. À chaque opération de classification, l’agent reçoit une récompense, dont la valeur attribuée à la classe majoritaire est inférieure à celle de la classe minoritaire. En fin de compte, l’agent détermine la valeur optimale des poids de la politique. Nous initialisons les poids de la politique à l’aide de l’algorithme ABC amélioré, une technique d’initialisation qui permet de prévenir des problèmes tels que le piégeage dans des optima locaux. Bien que l’algorithme ABC s’impose efficacement dans de nombreuses tâches, il présente toutefois une faiblesse : il ignore la qualité des paires d’individus voisins lors de la recherche d’une nouvelle position de source alimentaire proche.