HyperAIHyperAI

Command Palette

Search for a command to run...

vor 15 Tagen

OmniVinci: Verbesserung von Architektur und Daten für die omni-modale Wahrnehmung durch LLM

OmniVinci: Verbesserung von Architektur und Daten für die omni-modale Wahrnehmung durch LLM

Abstract

Die Weiterentwicklung der maschinellen Intelligenz erfordert die Fähigkeit, über mehrere Modalitäten hinweg wahrzunehmen – ähnlich wie Menschen die Welt wahrnehmen. Wir stellen OmniVinci vor, ein Projekt zur Entwicklung eines leistungsstarken, quelloffenen, omni-modalen Großmodells (LLM). Wir analysieren sorgfältig die Gestaltungsentscheidungen in Bezug auf Modellarchitektur und Datensammlung. Für die Modellarchitektur präsentieren wir drei zentrale Innovationen: (i) OmniAlignNet zur Stärkung der Ausrichtung zwischen visuellen und audiativen Embeddings in einem gemeinsamen, omni-modalen latente Raum; (ii) Temporal Embedding Grouping zur Erfassung der relativen zeitlichen Ausrichtung zwischen visuellen und audiativen Signalen; und (iii) Constrained Rotary Time Embedding zur Kodierung absoluter zeitlicher Informationen in omni-modalen Embeddings. Wir stellen eine Pipeline zur Datensammlung und -synthese vor, die 24 Millionen ein- und omni-modale Gespräche generiert. Wir beobachten, dass sich die Modalitäten sowohl in der Wahrnehmung als auch im Schlussfolgern gegenseitig stärken. Unser Modell, OmniVinci, erreicht bei der Leistungsbewertung gegenüber Qwen2.5-Omni eine Verbesserung um +19,05 bei DailyOmni (Cross-Modal-Verständnis), +1,7 bei MMAR (Audio) und +3,9 bei Video-MME (Visuelle Wahrnehmung), wobei lediglich 0,2 T Token für das Training verwendet werden – eine sechsfache Reduktion im Vergleich zu den 1,2 T Token, die Qwen2.5-Omni benötigt. Schließlich demonstrieren wir die Vorteile der omni-modalen Architektur in Anwendungen im Bereich Robotik, medizinische KI und intelligente Fabriken.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
OmniVinci: Verbesserung von Architektur und Daten für die omni-modale Wahrnehmung durch LLM | Forschungsarbeiten | HyperAI