HyperAIHyperAI

Command Palette

Search for a command to run...

vor 3 Monaten

Meteor: Mamba-basierte Durchquerung von Begründungen für große Sprach- und Visionssysteme

Byung-Kwan Lee Chae Won Kim Beomchan Park Yong Man Ro

Meteor: Mamba-basierte Durchquerung von Begründungen für große Sprach- und Visionssysteme

Abstract

Die rasante Entwicklung großer Sprach- und Visionmodelle (LLVMs) wird maßgeblich durch Fortschritte im Bereich der visuellen Anweisungstuning-Techniken vorangetrieben. In jüngster Zeit haben offene-Quell-LLVMs hochwertige Datensätze für visuelles Anweisungstuning zusammengestellt und zusätzliche Vision-Encoder oder mehrere Computer-Vision-Modelle eingesetzt, um die Leistungslücke zu leistungsstarken proprietären LLVMs zu schließen. Diese Fortschritte beruhen auf der Notwendigkeit, vielfältige Informationen zu verarbeiten, die für eine Vielzahl von Fähigkeiten erforderlich sind, darunter grundlegende Bildverstehensfähigkeiten, Wissen über Alltagskonzepte und nicht-objektbezogene Elemente (z. B. Diagramme, Symbole, Zeichen und mathematische Aufgaben) sowie schrittweise Verfahren zur Lösung komplexer Fragen. Ausgehend von diesen vielfältigen Informationsquellen präsentieren wir ein neuartiges, effizientes LLVM namens Meteor (Mamba-basierte Durchquerung von Rationale), das die vielfältige Rationale nutzt, um das Verständnis und die Antwortfähigkeit zu verbessern. Um lange Rationale mit reichhaltigen Informationen effizient zu verarbeiten, setzen wir die Mamba-Architektur ein, die sequenzielle Daten mit linearer Zeitkomplexität verarbeiten kann. Wir führen ein neues Konzept der Rationale-Durchquerung ein, das eine effiziente Embedding von Rationale ermöglicht. Anschließend wird der Hauptmodell-Backbone eines multimodalen Sprachmodells (MLM) trainiert, um Antworten mit Unterstützung der Rationale zu generieren. Durch diese Schritte erreicht Meteor signifikante Verbesserungen der Leistung in der visuellen Sprachverarbeitung über mehrere Bewertungsbenchmarks hinweg, die unterschiedliche Fähigkeiten erfordern – ohne dass die Modellgröße erhöht oder zusätzliche Vision-Encoder oder Computer-Vision-Modelle eingesetzt werden müssen.

Code-Repositories

byungkwanlee/meteor
Offiziell
pytorch
In GitHub erwähnt

Benchmarks

BenchmarkMethodikMetriken
visual-question-answering-on-mm-vetMeteor
GPT-4 score: 57.3
Params: 7B

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Meteor: Mamba-basierte Durchquerung von Begründungen für große Sprach- und Visionssysteme | Forschungsarbeiten | HyperAI