Command Palette
Search for a command to run...
OmniVinci: Verbesserung von Architektur und Daten für die omni-modale Wahrnehmung durch LLM

Abstract
Die Weiterentwicklung der maschinellen Intelligenz erfordert die Fähigkeit, über mehrere Modalitäten hinweg wahrzunehmen – ähnlich wie Menschen die Welt wahrnehmen. Wir stellen OmniVinci vor, ein Projekt zur Entwicklung eines leistungsstarken, quelloffenen, omni-modalen Großmodells (LLM). Wir analysieren sorgfältig die Gestaltungsentscheidungen in Bezug auf Modellarchitektur und Datensammlung. Für die Modellarchitektur präsentieren wir drei zentrale Innovationen: (i) OmniAlignNet zur Stärkung der Ausrichtung zwischen visuellen und audiativen Embeddings in einem gemeinsamen, omni-modalen latente Raum; (ii) Temporal Embedding Grouping zur Erfassung der relativen zeitlichen Ausrichtung zwischen visuellen und audiativen Signalen; und (iii) Constrained Rotary Time Embedding zur Kodierung absoluter zeitlicher Informationen in omni-modalen Embeddings. Wir stellen eine Pipeline zur Datensammlung und -synthese vor, die 24 Millionen ein- und omni-modale Gespräche generiert. Wir beobachten, dass sich die Modalitäten sowohl in der Wahrnehmung als auch im Schlussfolgern gegenseitig stärken. Unser Modell, OmniVinci, erreicht bei der Leistungsbewertung gegenüber Qwen2.5-Omni eine Verbesserung um +19,05 bei DailyOmni (Cross-Modal-Verständnis), +1,7 bei MMAR (Audio) und +3,9 bei Video-MME (Visuelle Wahrnehmung), wobei lediglich 0,2 T Token für das Training verwendet werden – eine sechsfache Reduktion im Vergleich zu den 1,2 T Token, die Qwen2.5-Omni benötigt. Schließlich demonstrieren wir die Vorteile der omni-modalen Architektur in Anwendungen im Bereich Robotik, medizinische KI und intelligente Fabriken.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.