il y a 6 mois

Jianxiong Li Jinliang Zheng Yinan Zheng Liyuan Mao Xiao Hu Sijie Cheng Haoyi Niu Jihao Liu Yu Liu Jingjing Liu

Résumé

Le préentraînement multimodal constitue une stratégie efficace pour atteindre les trois objectifs fondamentaux de l’apprentissage de représentations dans les robots autonomes : 1) extraire à la fois les progressions locales et globales des tâches ; 2) imposer une cohérence temporelle aux représentations visuelles ; 3) capturer l’ancrage linguistique au niveau de la trajectoire. La plupart des méthodes existantes abordent ces objectifs de manière séparée, ce qui conduit souvent à des solutions sous-optimales. Dans cet article, nous proposons une objectif unifié universel capable d’extraire simultanément des informations significatives sur la progression des tâches à partir de séquences d’images et de les aligner de manière fluide avec des instructions linguistiques. Nous constatons que, grâce à des préférences implicites — où une trajectoire visuelle s’aligne naturellement mieux avec son instruction linguistique correspondante qu’avec une paire non corrélée —, le modèle populaire de Bradley-Terry peut être réinterprété comme un mécanisme d’apprentissage de représentations via une reparamétrisation adéquate des récompenses. Le cadre résultant, DecisionNCE, adopte une structure inspirée de InfoNCE, mais est spécifiquement conçu pour les tâches de prise de décision, offrant ainsi un cadre d’apprentissage de représentations incarnées qui extrait élégamment à la fois des caractéristiques locales et globales de progression de tâche, impose une cohérence temporelle par apprentissage contrastif implicite dans le temps, tout en garantissant l’ancrage linguistique au niveau de la trajectoire grâce à une encodage conjoint multimodal. Les évaluations menées sur des robots simulés et réels démontrent que DecisionNCE favorise efficacement diverses tâches d’apprentissage de politiques en aval, offrant ainsi une solution polyvalente pour l’apprentissage unifié de représentations et de récompenses. Page du projet : https://2toinf.github.io/DecisionNCE/

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Représentation Multimodale

Multimodal

Apprentissage Multi-tâches

Approche/Framework

Multimodal

Tâche

Jianxiong Li Jinliang Zheng Yinan Zheng Liyuan Mao Xiao Hu Sijie Cheng Haoyi Niu Jihao Liu Yu Liu Jingjing Liu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Représentation Multimodale

Multimodal

Apprentissage Multi-tâches

Approche/Framework

Multimodal

Tâche

Jianxiong Li Jinliang Zheng Yinan Zheng Liyuan Mao Xiao Hu Sijie Cheng Haoyi Niu Jihao Liu Yu Liu Jingjing Liu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

DecisionNCE : Représentations multimodales incarnées par apprentissage implicite des préférences | Articles | HyperAI

Command Palette

DecisionNCE : Représentations multimodales incarnées par apprentissage implicite des préférences

Jianxiong Li Jinliang Zheng Yinan Zheng Liyuan Mao Xiao Hu Sijie Cheng Haoyi Niu Jihao Liu Yu Liu Jingjing Liu2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DecisionNCE : Représentations multimodales incarnées par apprentissage implicite des préférences

Jianxiong Li Jinliang Zheng Yinan Zheng Liyuan Mao Xiao Hu Sijie Cheng Haoyi Niu Jihao Liu Yu Liu Jingjing Liu2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DecisionNCE : Représentations multimodales incarnées par apprentissage implicite des préférences

Jianxiong Li Jinliang Zheng Yinan Zheng Liyuan Mao Xiao Hu Sijie Cheng Haoyi Niu Jihao Liu Yu Liu Jingjing Liu2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Jianxiong Li Jinliang Zheng Yinan Zheng Liyuan Mao Xiao Hu Sijie Cheng Haoyi Niu Jihao Liu Yu Liu Jingjing Liu

Jianxiong Li Jinliang Zheng Yinan Zheng Liyuan Mao Xiao Hu Sijie Cheng Haoyi Niu Jihao Liu Yu Liu Jingjing Liu

Jianxiong Li Jinliang Zheng Yinan Zheng Liyuan Mao Xiao Hu Sijie Cheng Haoyi Niu Jihao Liu Yu Liu Jingjing Liu