vor 2 Monaten

Die Anfänge der LMMs: Vorläufige Erkundungen mit GPT-4V(ision)

Yang, Zhengyuan ; Li, Linjie ; Lin, Kevin ; Wang, Jianfeng ; Lin, Chung-Ching ; Liu, Zicheng ; Wang, Lijuan

Abstract

Große multimodale Modelle (LMMs) erweitern große Sprachmodelle (LLMs) um multisensorische Fähigkeiten, wie visuelles Verständnis, um eine stärkere generische Intelligenz zu erreichen. In dieser Arbeit analysieren wir das neueste Modell, GPT-4V(ision), um das Verständnis von LMMs zu vertiefen. Die Analyse konzentriert sich auf die faszinierenden Aufgaben, die GPT-4V ausführen kann. Sie enthält Testbeispiele, um die Qualität und Generizität der Fähigkeiten von GPT-4V zu untersuchen, sowie seine unterstützten Eingaben und Arbeitsmodi und effektive Methoden zur Anweisung des Modells. Unser Ansatz zur Erforschung von GPT-4V besteht darin, eine Sammlung sorgfältig gestalteter qualitativer Beispiele zu küraten und zu organisieren, die verschiedene Bereiche und Aufgaben abdecken. Beobachtungen aus diesen Beispielen zeigen, dass die einzigartige Fähigkeit von GPT-4V, beliebig vermischte multimodale Eingaben zu verarbeiten, zusammen mit der Generizität seiner Fähigkeiten GPT-4V zu einem leistungsfähigen multimodalen Allrounder-System macht. Darüber hinaus kann die einzigartige Fähigkeit von GPT-4V, visuelle Markierungen auf Eingabebildern zu verstehen, neue Mensch-Computer-Interaktionsmethoden wie visuelles Referenzanweisen ermöglichen. Wir schließen den Bericht mit tiefgreifenden Diskussionen über die auftauchenden Anwendungsszenarien und zukünftige Forschungsrichtungen für Systeme basierend auf GPT-4V. Wir hoffen, dass diese vorläufige Exploration zukünftige Forschungen zur Formulierung der nächsten Generation multimodaler Aufgaben inspiriert, neue Möglichkeiten zur Nutzung und Verbesserung von LMMs zur Lösung realweltlicher Probleme eröffnet und ein besseres Verständnis der multimodalen Grundlagenmodelle fördert. Schließlich sei erwähnt, dass das in dieser Studie untersuchte Modell ausschließlich das Produkt innovativer Arbeiten von OpenAI ist und sie vollständig für dessen Entwicklung geehrt werden sollten. Für Informationen zur Autorenschaft und Zuordnung der Anerkennung bitte den Beitragspapier von GPT-4V konsultieren: https://cdn.openai.com/contributions/gpt-4v.pdf