HyperAIHyperAI
vor 17 Tagen

PaLM-E: Ein körperhaftes multimodales Sprachmodell

Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus Greff, Andy Zeng, Igor Mordatch, Pete Florence
PaLM-E: Ein körperhaftes multimodales Sprachmodell
Abstract

Große Sprachmodelle erzielen hervorragende Ergebnisse bei einer Vielzahl komplexer Aufgaben. Die Realisierung allgemeiner Inferenz in der realen Welt – beispielsweise für Roboteranwendungen – wirft jedoch die Herausforderung der Verankerung (Grounding) auf. Wir schlagen eingebettete Sprachmodelle (embodied language models) vor, die es ermöglichen, kontinuierliche Sensormodalitäten der realen Welt direkt in Sprachmodelle einzubinden und somit die Verbindung zwischen Wörtern und Wahrnehmungen herzustellen. Als Eingabe unseres eingebetteten Sprachmodells dienen multimodale Sätze, die visuelle, kontinuierliche Zustandsabschätzungen und textuelle Eingabencodierungen miteinander verflechten. Diese Codierungen werden end-to-end trainiert, zusammen mit einem vortrainierten großen Sprachmodell, für mehrere eingebettete Aufgaben, darunter sequenzielle Planung robotischer Manipulation, visuelle Fragebeantwortung und Bildbeschreibung. Unsere Evaluationen zeigen, dass PaLM-E, ein einziges großes eingebettetes multimodales Modell, eine Vielzahl eingebetteter Schlussfolgerungsaufgaben lösen kann – unabhängig von unterschiedlichen Beobachtungsmodalitäten, mehreren Roboterplattformen und zudem positive Transferleistung aufweist: Das Modell profitiert von einer diversifizierten gemeinsamen Trainingsstrategie über internetweite Sprach-, Bild- und visuallinguistische Domänen. Unser größtes Modell, PaLM-E-562B mit 562 Milliarden Parametern, ist nicht nur für Roboteranwendungen trainiert, sondern auch ein visuallinguistischer Generalist mit state-of-the-art-Leistung auf OK-VQA und behält bei steigender Skalierung seine allgemeinen Sprachfähigkeiten.