vor 15 Tagen

OmniVinci: Verbesserung von Architektur und Daten für die omni-modale Wahrnehmung durch LLM

Details der Forschungsarbeit anzeigen Code anzeigen

Hanrong Ye Chao-Han Huck Yang Arushi Goel Wei Huang Ligeng Zhu Yuanhang Su Sean Lin An-Chieh Cheng Zhen Wan Jinchuan Tian

OmniVinci: Verbesserung von Architektur und Daten für die omni-modale Wahrnehmung durch LLM

Abstract

Die Weiterentwicklung der maschinellen Intelligenz erfordert die Fähigkeit, über mehrere Modalitäten hinweg wahrzunehmen – ähnlich wie Menschen die Welt wahrnehmen. Wir stellen OmniVinci vor, ein Projekt zur Entwicklung eines leistungsstarken, quelloffenen, omni-modalen Großmodells (LLM). Wir analysieren sorgfältig die Gestaltungsentscheidungen in Bezug auf Modellarchitektur und Datensammlung. Für die Modellarchitektur präsentieren wir drei zentrale Innovationen: (i) OmniAlignNet zur Stärkung der Ausrichtung zwischen visuellen und audiativen Embeddings in einem gemeinsamen, omni-modalen latente Raum; (ii) Temporal Embedding Grouping zur Erfassung der relativen zeitlichen Ausrichtung zwischen visuellen und audiativen Signalen; und (iii) Constrained Rotary Time Embedding zur Kodierung absoluter zeitlicher Informationen in omni-modalen Embeddings. Wir stellen eine Pipeline zur Datensammlung und -synthese vor, die 24 Millionen ein- und omni-modale Gespräche generiert. Wir beobachten, dass sich die Modalitäten sowohl in der Wahrnehmung als auch im Schlussfolgern gegenseitig stärken. Unser Modell, OmniVinci, erreicht bei der Leistungsbewertung gegenüber Qwen2.5-Omni eine Verbesserung um +19,05 bei DailyOmni (Cross-Modal-Verständnis), +1,7 bei MMAR (Audio) und +3,9 bei Video-MME (Visuelle Wahrnehmung), wobei lediglich 0,2 T Token für das Training verwendet werden – eine sechsfache Reduktion im Vergleich zu den 1,2 T Token, die Qwen2.5-Omni benötigt. Schließlich demonstrieren wir die Vorteile der omni-modalen Architektur in Anwendungen im Bereich Robotik, medizinische KI und intelligente Fabriken.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

OmniVinci: Verbesserung von Architektur und Daten für die omni-modale Wahrnehmung durch LLM

Hanrong Ye Chao-Han Huck Yang Arushi Goel Wei Huang Ligeng Zhu Yuanhang Su Sean Lin An-Chieh Cheng Zhen Wan Jinchuan Tian22 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Hanrong Ye Chao-Han Huck Yang Arushi Goel Wei Huang Ligeng Zhu Yuanhang Su Sean Lin An-Chieh Cheng Zhen Wan Jinchuan Tian