HyperAIHyperAI
vor 2 Monaten

Kosmos-2: Grundlegung von multimodalen großen Sprachmodellen in der realen Welt

Zhiliang Peng; Wenhui Wang; Li Dong; Yaru Hao; Shaohan Huang; Shuming Ma; Furu Wei
Kosmos-2: Grundlegung von multimodalen großen Sprachmodellen in der realen Welt
Abstract

Wir stellen Kosmos-2 vor, ein multimodales großes Sprachmodell (Multimodal Large Language Model, MLLM), das neue Fähigkeiten zur Wahrnehmung von Objektbeschreibungen (z.B. Begrenzungsrahmen) und zum Verankerung von Text in der visuellen Welt ermöglicht. Insbesondere repräsentieren wir Referenzausdrücke als Links in Markdown, d.h. „Textausschnitt“, wobei Objektbeschreibungen Sequenzen von Ortsangaben sind. Zusammen mit multimodalen Korpora erstellen wir umfangreiche Daten von verankerten Bild-Text-Paaren (als GrIT bezeichnet), um das Modell zu trainieren. Neben den bestehenden Fähigkeiten von MLLMs (wie die Wahrnehmung allgemeiner Modalitäten, dem Folgen von Anweisungen und dem kontextuellen Lernen) integriert Kosmos-2 die Verankerungsfähigkeit in nachgeschaltete Anwendungen. Wir evaluieren Kosmos-2 anhand einer Vielzahl von Aufgaben, darunter (i) multimodale Verankerung, wie das Verstehen von Referenzausdrücken und Phrasenverankerung, (ii) multimodale Referenzierung, wie die Generierung von Referenzausdrücken, (iii) Perzeption-Sprache-Aufgaben und (iv) Sprachverstehen und -generierung. Diese Arbeit legt die Grundlagen für die Entwicklung der Embodiment-KI und beleuchtet die große Konvergenz von Sprache, multimodaler Wahrnehmung, Aktion und Weltmodellierung, was einen wichtigen Schritt auf dem Weg zur künstlichen allgemeinen Intelligenz darstellt. Der Quellcode und die vortrainierten Modelle sind unter https://aka.ms/kosmos-2 verfügbar.

Kosmos-2: Grundlegung von multimodalen großen Sprachmodellen in der realen Welt | Neueste Forschungsarbeiten | HyperAI