HyperAIHyperAI
vor 11 Tagen

DecisionNCE: Körperhafte multimodale Darstellungen durch implizites Präferenzlernen

Jianxiong Li, Jinliang Zheng, Yinan Zheng, Liyuan Mao, Xiao Hu, Sijie Cheng, Haoyi Niu, Jihao Liu, Yu Liu, Jingjing Liu, Ya-Qin Zhang, Xianyuan Zhan
DecisionNCE: Körperhafte multimodale Darstellungen durch implizites Präferenzlernen
Abstract

Multimodales Vortrainieren ist eine effektive Strategie für die Dreifachheit der Ziele der Repräsentationslernung in autonomen Robotern: 1) die Extraktion sowohl lokaler als auch globaler Aufgabenfortschritte; 2) die Sicherstellung der zeitlichen Konsistenz visueller Repräsentationen; 3) die Erfassung der sprachlichen Grundlage auf Trajektorie-Ebene. Die meisten bestehenden Methoden adressieren diese Ziele über getrennte Zielsetzungen, was häufig zu suboptimalen Lösungen führt. In diesem Paper stellen wir ein universelles, einheitliches Ziel vor, das gleichzeitig sinnvolle Informationsstrukturen des Aufgabenfortschritts aus Bildsequenzen extrahiert und diese nahtlos mit Sprachanweisungen ausrichtet. Wir entdecken, dass mittels impliziter Präferenzen – bei denen eine visuelle Trajektorie sich intrinsisch besser mit ihrer entsprechenden Sprachanweisung synchronisiert als mit inkongruenten Paaren – das populäre Bradley-Terry-Modell durch geeignete Belohnungsreparametrisierungen in ein Repräsentationslernverfahren transformiert werden kann. Das resultierende Framework, DecisionNCE, folgt einer InfoNCE-ähnlichen Struktur, ist jedoch spezifisch auf Entscheidungsfindungsaufgaben zugeschnitten und bietet ein körperhaftes Repräsentationslernframework, das sowohl lokale als auch globale Merkmale des Aufgabenfortschritts elegant extrahiert, die zeitliche Konsistenz durch implizites zeitliches Gegensatzlernverfahren sicherstellt und gleichzeitig die sprachliche Grundlage auf Trajektorie-Ebene durch multimodale gemeinsame Kodierung gewährleistet. Evaluierungen an simulierten und realen Robotern zeigen, dass DecisionNCE die Durchführung vielfältiger nachgeschalteter Politiklernaufgaben effektiv unterstützt und somit eine vielseitige Lösung für die vereinheitlichte Repräsentations- und Belohnungslernung darstellt. Projektseite: https://2toinf.github.io/DecisionNCE/

DecisionNCE: Körperhafte multimodale Darstellungen durch implizites Präferenzlernen | Neueste Forschungsarbeiten | HyperAI