vor 11 Tagen

LLaVA-Plus: Lernen, Werkzeuge zu nutzen, um multimodale Agenten zu erstellen

Shilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li

Details der Forschungsarbeit anzeigen

LLaVA-Plus: Lernen, Werkzeuge zu nutzen, um multimodale Agenten zu erstellen

Abstract

LLaVA-Plus ist ein allgemein einsetzbarer multimodaler Assistent, der die Fähigkeiten großer multimodaler Modelle erweitert. Er verfügt über eine Fähigkeitsdatenbank, die vortrainierte visuelle und visuallinguistische Modelle enthält, und kann basierend auf den Eingaben der Nutzer relevante Werkzeuge aktivieren, um reale Aufgaben zu erfüllen. LLaVA-Plus wurde auf multimodalen Anweisungsfolge-Daten trainiert, um die Fähigkeit zu erwerben, Werkzeuge zu nutzen, wobei visuelle Wahrnehmung, Generierung, Abruf externer Wissensdaten sowie Kompositionen abgedeckt werden. Empirische Ergebnisse zeigen, dass LLaVA-Plus in bestehenden Fähigkeiten LLaVA übertrifft und zudem neue Fähigkeiten aufweist. Besonders hervorzuheben ist, dass die Bildanfrage direkt verankert und während der gesamten Interaktionssitzung zwischen Mensch und KI aktiv einbezogen wird, was die Leistung bei der Werkzeugnutzung erheblich verbessert und neue Anwendungsszenarien ermöglicht.