HyperAIHyperAI

Command Palette

Search for a command to run...

DecisionNCE: Körperhafte multimodale Darstellungen durch implizites Präferenzlernen

Zusammenfassung

Multimodales Vortrainieren ist eine effektive Strategie für die Dreifachheit der Ziele der Repräsentationslernung in autonomen Robotern: 1) die Extraktion sowohl lokaler als auch globaler Aufgabenfortschritte; 2) die Sicherstellung der zeitlichen Konsistenz visueller Repräsentationen; 3) die Erfassung der sprachlichen Grundlage auf Trajektorie-Ebene. Die meisten bestehenden Methoden adressieren diese Ziele über getrennte Zielsetzungen, was häufig zu suboptimalen Lösungen führt. In diesem Paper stellen wir ein universelles, einheitliches Ziel vor, das gleichzeitig sinnvolle Informationsstrukturen des Aufgabenfortschritts aus Bildsequenzen extrahiert und diese nahtlos mit Sprachanweisungen ausrichtet. Wir entdecken, dass mittels impliziter Präferenzen – bei denen eine visuelle Trajektorie sich intrinsisch besser mit ihrer entsprechenden Sprachanweisung synchronisiert als mit inkongruenten Paaren – das populäre Bradley-Terry-Modell durch geeignete Belohnungsreparametrisierungen in ein Repräsentationslernverfahren transformiert werden kann. Das resultierende Framework, DecisionNCE, folgt einer InfoNCE-ähnlichen Struktur, ist jedoch spezifisch auf Entscheidungsfindungsaufgaben zugeschnitten und bietet ein körperhaftes Repräsentationslernframework, das sowohl lokale als auch globale Merkmale des Aufgabenfortschritts elegant extrahiert, die zeitliche Konsistenz durch implizites zeitliches Gegensatzlernverfahren sicherstellt und gleichzeitig die sprachliche Grundlage auf Trajektorie-Ebene durch multimodale gemeinsame Kodierung gewährleistet. Evaluierungen an simulierten und realen Robotern zeigen, dass DecisionNCE die Durchführung vielfältiger nachgeschalteter Politiklernaufgaben effektiv unterstützt und somit eine vielseitige Lösung für die vereinheitlichte Repräsentations- und Belohnungslernung darstellt. Projektseite: https://2toinf.github.io/DecisionNCE/


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DecisionNCE: Körperhafte multimodale Darstellungen durch implizites Präferenzlernen | Paper | HyperAI