HyperAI
Back to Headlines

Nouvelle Avancée en Apprentissage Automatique : Causal Bellman Equation pour l'Optimisation Rapide des Agents Intelligents

il y a 3 jours

Une équipe de recherche dirigée par le Dr Mingxuan Li, professeur à Columbia University aux États-Unis, a proposé récemment une nouvelle approche appelée l'équation de Bellman causale. Cette méthodologie permet de calculer une borne supérieure théorique de la fonction de valeur optimale, utilisant des données observationnelles qui peuvent comporter des variables confondantes. En concevant des fonctions de récompense basées sur cette borne supérieure, l'équipe a démontré qu'il est possible d'entraîner plus rapidement des agents optimaux dans certains algorithmes de apprentissage en ligne spécifiques. Le Dr Li et ses collaborateurs anticipent que ce résultat pourra être étendu à des problèmes robotiques de dimensions plus élevées, plus proches des applications pratiques, facilitant ainsi l'automatisation de la conception de fonctions de récompense pour entraîner des robots à accomplir des tâches complexes. Par ailleurs, l'approche pourrait utiliser non seulement des données collectées auprès de robots similaires ayant réussi des tâches, mais également des données vidéo provenant d'agents intelligents dotés de compétences comparables, voire des vidéos de démonstrations humaines. Dans l'apprentissage des agents pour réaliser des tâches qui ne possèdent pas de mesures progressives claires, il est souvent nécessaire d'introduire des signaux de supervision supplémentaires pour améliorer l'entraînement. Par exemple, lors de l'utilisation d'algorithmes d'apprentissage par renforcement pour contrôler une main robotisée visant à résoudre un Rubik's Cube, le signal le plus intuitif de successfully complétion de la tâche est simplement de savoir si le cube est résolu dans un délai fixe. Ce genre de critère macroscopique ne fournit aucune indication spécifique sur les erreurs ou les progrès à chaque étape de la résolution du cube, ce qui rend l'entraînement difficile. Lorsque la main robotisée explore aléatoirement, la probabilité de tomber inadvertemment sur la séquence correcte de mouvements pour résoudre le Rubik's Cube est presque nulle. C'est la raison pour laquelle dans leurs travaux précédents, OpenAI a dû ajouter de nombreux signaux de récompense supplémentaires pour superviser des aspects tels que les mouvements des doigts de la main robotisée, et vérifier si l'état actuel du cube correspondait aux prédictions de l'algorithme. Un autre scénario similaire se produit lorsque les joueurs d'un jeu vidéo ne reçoivent aucun feedback intermédiaire, hormis l'information finale indiquant la victoire ou la défaite. Cette absence de guidage progressif rend le jeu difficile et nécessite des essais répétés pour comprendre les conditions de victoire. Ainsi, pour entraîner efficacement un agent, les chercheurs doivent souvent ajouter des signaux de récompense supplémentaires comme ceux mentionnés. Ces signaux de récompense supplémentaires, qui n'affectent pas la stratégie optimale finale de l'agent, sont connus sous le nom de PBRS (Potential Based Reward Shaping), introduit par le chercheur chinois Andrew Ng en 1999. Néanmoins, la conception et l'ajustement de ces signaux pour chaque nouvelle tâche requièrent des efforts considérables en temps et en main-d’œuvre, ce qui est unsustainable face à la demande croissante d'agents intelligents dans le monde moderne. Pour répondre à ce défi, l'équipe de recherche s'est penchée sur la question de savoir si il était possible de développer automatiquement un signal de récompense supplémentaire à partir de données existantes. Bien qu'il soit possible d’estimer une fonction de valeur par la méthode de Monte Carlo, où la différence de valeur entre deux états sert de récompense supplémentaire, cette méthode perd en fiabilité et en précision si les données proviennent d'un agent performant ou contiennent des variables confondantes. L'équipe de Li a donc exploré l'utilisation d'outils d'inférence causale pour apprendre automatiquement des fonctions de récompense à partir de multiples datasets, même ceux comportant des biais non observés. Ils ont fourni une preuve théorique détaillée, montrant pourquoi ces fonctions de récompense peuvent considérablement améliorer l'efficacité de l'entraînement des agents. Des expériences abondantes ont également corroboré cette théorie. Au départ, le Dr Li doutait que cette amélioration algorithmique puisse apporter une réduction significative de la complexité des échantillons, car plusieurs études précédentes avaient montré que les signaux de récompense supplémentaires ajoutés selon le schéma PBRS de Ng n'influençaient pas souvent la complexité des échantillons. Son directeur de thèse partageait cette réticence, trouvant paradoxal le gain important constaté expérimentalement. Mais avant d'abandonner, Li a revu soigneusement certaines analyses récentes sur lacomplexité des algorithmes d'exploration en ligne, en mettant l'accent sur les détails de preuve présentés dans les annexes. C'est alors qu'il a fait une découverte clé : plusieurs conclusions intermédiaires dans différents articles semblaient se connecter, permettant de prouver sa thèse sur la complexité des échantillons. "Ce moment d'intuition s'est avéré correct et a abouti à une conclusion théorique élégante, créant un sentiment d'émerveillement similaire à celui de trouver la dernière pièce du puzzle," a déclaré Li. Le papier intitulé « Automatic Reward Shaping from Confounded Offline Data » (“Forme de récompense automatique à partir de données hors ligne confondues”) a été accepté pour la présentation au 2025 International Conference on Machine Learning (ICML). À l'avenir, l'équipe compte explorer comment appliquer cette méthode à des problèmes d'envergure plus grande, tels que les jeux Atari ou les tâches de contrôle robotique nécessitant des espaces d'état et d'action continus. Les implications de cette recherche sont prometteuses. Si elle peut être généralisée avec succès, cela pourrait simplifier considérablement le processus de formation des agents intelligents, en réduisant la nécessité d'une intervention humaine excessive et en accélérant le développement de robots capables d'accomplir des tâches complexes et variées.

Related Links