HyperAIHyperAI
il y a 11 jours

DecisionNCE : Représentations multimodales incarnées par apprentissage implicite des préférences

Jianxiong Li, Jinliang Zheng, Yinan Zheng, Liyuan Mao, Xiao Hu, Sijie Cheng, Haoyi Niu, Jihao Liu, Yu Liu, Jingjing Liu, Ya-Qin Zhang, Xianyuan Zhan
DecisionNCE : Représentations multimodales incarnées par apprentissage implicite des préférences
Résumé

Le préentraînement multimodal constitue une stratégie efficace pour atteindre les trois objectifs fondamentaux de l’apprentissage de représentations dans les robots autonomes : 1) extraire à la fois les progressions locales et globales des tâches ; 2) imposer une cohérence temporelle aux représentations visuelles ; 3) capturer l’ancrage linguistique au niveau de la trajectoire. La plupart des méthodes existantes abordent ces objectifs de manière séparée, ce qui conduit souvent à des solutions sous-optimales. Dans cet article, nous proposons une objectif unifié universel capable d’extraire simultanément des informations significatives sur la progression des tâches à partir de séquences d’images et de les aligner de manière fluide avec des instructions linguistiques. Nous constatons que, grâce à des préférences implicites — où une trajectoire visuelle s’aligne naturellement mieux avec son instruction linguistique correspondante qu’avec une paire non corrélée —, le modèle populaire de Bradley-Terry peut être réinterprété comme un mécanisme d’apprentissage de représentations via une reparamétrisation adéquate des récompenses. Le cadre résultant, DecisionNCE, adopte une structure inspirée de InfoNCE, mais est spécifiquement conçu pour les tâches de prise de décision, offrant ainsi un cadre d’apprentissage de représentations incarnées qui extrait élégamment à la fois des caractéristiques locales et globales de progression de tâche, impose une cohérence temporelle par apprentissage contrastif implicite dans le temps, tout en garantissant l’ancrage linguistique au niveau de la trajectoire grâce à une encodage conjoint multimodal. Les évaluations menées sur des robots simulés et réels démontrent que DecisionNCE favorise efficacement diverses tâches d’apprentissage de politiques en aval, offrant ainsi une solution polyvalente pour l’apprentissage unifié de représentations et de récompenses. Page du projet : https://2toinf.github.io/DecisionNCE/

DecisionNCE : Représentations multimodales incarnées par apprentissage implicite des préférences | Articles de recherche récents | HyperAI