Veranstaltungszusammenfassung | Die Universität Peking, Die Tsinghua-Universität, Zilliz Und MoonBit Diskutieren Über Open Source Und Behandeln Dabei Videogenerierung, Visuelles Verständnis, Vektordatenbanken Und KI-native Programmiersprachen.

Die KI-Branche durchläuft derzeit einen beispiellosen Entwicklungszyklus. Der großflächige Einsatz von Big-Data-Modellen, die Umstrukturierung KI-nativer Softwaresysteme und die beschleunigte Weiterentwicklung multimodaler Basismodelle lassen die Grenzen zwischen Wissenschaft und Industrie verschwimmen. Ob es sich um die zunehmend anspruchsvollen Anforderungen an die audiovisuelle Synchronisation bei der Videogenerierung, die effiziente Optimierung der Inferenz von On-Device-Visualmodellen oder das Aufkommen von KI-nativen Programmiersprachen der nächsten Generation handelt – all dies treibt einen klaren Trend voran.Die Zusammenarbeit zwischen Industrie und Wissenschaft sowie Open-Source-Ökosysteme entwickeln sich zu den wichtigsten Innovationsparadigmen im Zeitalter der KI.
In den letzten Jahrzehnten war der Kreislauf, in dem die wissenschaftliche Forschung die Industrie antreibt und die Industrie die wissenschaftliche Forschung unterstützt, weit verbreitet. Angesichts des heutigen exponentiellen Wachstums von Modellen, Rechenleistung und Daten reichen punktuelle Innovationen jedoch nicht mehr aus, um den Bedarf zu decken.Open Source hat sich von der gemeinsamen Nutzung von Werkzeugen hin zur Zusammenarbeit an der Infrastruktur entwickelt und ist zu einem wichtigen Bindeglied zwischen Universitäten, Unternehmen, Gemeinschaften und einzelnen Entwicklern geworden.Insbesondere in zukunftsweisenden Bereichen wie Bildverarbeitung, multimodaler Datenverarbeitung, Vektordatenbanken und KI-Programmiersprachen hat Open Source nicht nur die Verbreitung von Technologien beschleunigt, sondern auch die Organisation von Forschung und Entwicklung grundlegend verändert und so zu mehr „ko-kreativer Innovation“ geführt.
In diesem ZusammenhangHyperAI veranstaltete als Mitveranstalter der COSCon'25 am 7. Dezember das „Industry-Research Open Source Collaboration Forum“.Wir fühlen uns geehrt, Shi Baixin, Forscher an der Peking-Universität, Li Chenglong, Chief Open Source Evangelist von Zilliz, Chen Hui, Assistenzforscher an der Tsinghua-Universität, und Lei Zhengyu, Kernentwickler der MoonBit-Community, eingeladen zu haben, um über den Implementierungsweg zukunftsweisender Forschung im Open-Source-Ökosystem, das iterative Paradigma von Open-Source-Projekten in der industriellen Praxis und darüber zu diskutieren, wie KI-Anwendungen in Zukunft durch die Kraft der Community ihre Grenzen weiter ausdehnen werden.
Shi Baixin: Entwicklung eines brandneuen Datensatzes zur Realisierung eines neuen Paradigmas für die Videogenerierung und audiovisuelle Synchronisationstechnologie
Die Videogenerierungstechnologie hat in letzter Zeit Fortschritte hinsichtlich Bildqualität und kurzfristiger zeitlicher Kohärenz erzielt und ist in der Lage, hochauflösende Kurzclips zu erzeugen und einen gewissen Grad an audiovisueller Synchronisation zu erreichen. Traditionelle Methoden stoßen jedoch weiterhin auf Probleme wie Breiten- und Längengradverzerrungen, diskontinuierlichem Zusammenfügen von Blickwinkeln, mangelnder Konsistenz bei sich bewegenden Objekten und unzureichender langfristiger zeitlicher Stabilität. Darüber hinaus besteht eine hohe Korrelation zwischen Audio- und Videoinhalten. Um es Modellen zu ermöglichen, verschiedene Informationstypen wie Sprache, Musik und Umgebungsgeräusche realistisch zu erfassen, ist es notwendig, ein Generierungsframework zu entwickeln, das Mehrspursignale verarbeiten kann.

In diesem ZusammenhangDas Team von Professor Shi Baixin schlug die Intervallflusstechnik für die audiovisuelle Synchronisation vor, die es dem Modell ermöglicht, während des Lernprozesses „mehrere Frames davor und danach zu betrachten“ und dadurch Aufmerksamkeitsverbindungen über die Zeit hinweg herzustellen.Durch die Integration interner Blockmodule kann das Modell Selbstaufmerksamkeitsmechanismen auf verschiedenen Audiospuren implementieren, um unterschiedliche Arten von Audioinformationen, wie Sprache und Umgebungsgeräusche, präziser zu verarbeiten. Aufgrund des eher globalen Charakters des Musikanteils implementierte das Team die emotionale Darstellung durch globale Merkmalseinspeisung, wodurch das Modell entsprechende visuelle Effekte basierend auf der musikalischen Atmosphäre generieren kann.
Professor Shi Baixin stellte die bahnbrechenden Erfolge vor, die das Team in diesem Projekt erzielt hat:
Es wird ein multifunktionales Framework zur audio-synchronisierten Videogenerierung vorgeschlagen.Präzise audiovisuelle Zuordnung und genaue Zeitausrichtung werden durch demixiertes Audio erreicht.
* Es wurde ein neuer Datensatz für die audio-synchronisierte Videogenerierung erstellt, der aus 5 sich überschneidenden Teilmengen besteht.Es enthält etwa 392.000 Audio- und Videosegmente mit einer Gesamtlänge von ca. 1.200 Stunden. Basierend auf diesem Datensatz lernt das Modell in mehreren Trainingsrunden die Synchronisierung von Gesichtsausdrücken und Lippenbewegungen, die Steuerung des zeitlichen Ablaufs von Ereignissen und die Darstellung emotionaler Atmosphären.
* Es wird ein Multi-Stream-Zeitsteuerungsnetzwerk zur Verarbeitung von demixed Audiotracks vorgeschlagen.Präzise Kontrolle über Lippensynchronisation, Timing der Ereignisse und emotionale Atmosphäre.
Die zugehörigen Ergebnisse mit dem Titel „Audio-Sync Video Generation with Multi-Stream Temporal Control“ wurden für die NeurIPS 2025 ausgewählt.
außerdem,Dem Team von Professor Shi Baixin ist es außerdem gelungen, Panoramavideos mit sich bewegenden Objekten zu generieren und unterstützt Aufgaben wie lange Videos, semantische Bearbeitung, Superauflösung und Blickwinkelinterpolation.Dieses Verfahren nutzt eine breitenabhängige Abtasttechnik, um Bildverzerrungen durch äquidistante rechteckige Projektion effektiv zu reduzieren. Gleichzeitig wird das Problem der visuellen semantischen Inkohärenz an Längengradgrenzen durch rotationsbasierte semantische Rauschunterdrückung und pixelweise Dekodierungsstrategien zur Füllung der Grenzen behoben.
Die zugehörigen Ergebnisse mit dem Titel „PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms“ wurden ebenfalls in NeurIPS 2025 aufgenommen.
Li Chenglong: Aufbau kommerzieller Dienstleistungen auf Basis von Milvus, der ersten Open-Source-Vektordatenbank
Im Oktober 2019Milvus ist nun offiziell Open Source. Als weltweit erste Open-Source-Vektordatenbank wird sie in Projekten von über 10.000 Unternehmen eingesetzt und hat auf GitHub 40.000 Sterne erhalten.Milvus deckt insbesondere eine Vielzahl von Datentypen ab und unterstützt verschiedene Vektordaten wie Float, Sparse und Binärdaten. Es ermöglicht außerdem dynamisches Löschen und Entfernen, sofortiges Hinzufügen und Abrufen sowie die Speicherung von Daten in Echtzeit auf der Festplatte. Darüber hinaus unterstützt es die Filterung von Tags und Vektoren sowie die Suche nach Schlüsselwörtern und Vektoren.

Professor Li Chenglong analysierte die architektonische Entwicklung von Milvus und stellte fest, dass in der im März 2021 veröffentlichten LTS-VersionDas Team hat viel Entwicklungsarbeit in den Bereichen Datenpersistenz, Datensharding und Unterstützung für unterschiedliche heterogene Hardware geleistet.Diese Version weist jedoch einen wesentlichen Nachteil auf: Daten schreiben, indizieren usw. erfolgen in einer einzigen Komponente, wodurch eine Ein-Maschinen-Architektur entsteht. Ihr Hauptnachteil besteht darin, dass die Skalierbarkeit bei großen Datenmengen oder hohem Abfrageaufkommen (QPS) stark eingeschränkt ist. Dies erschwert die Bewältigung des hohen Datenvolumens großer Unternehmen oder von Szenarien mit hohem Abfrageaufkommen wie beispielsweise am 11. November.
Aktuell hat das Team zahlreiche Optimierungen an der Architektur der neuesten Milvus-Version 2.6 vorgenommen, wie zum Beispiel das Hinzufügen von StreamingNode zur Verarbeitung inkrementeller Daten, das Zusammenführen von DataNode und IndexNode sowie das Hinzufügen des selbstentwickelten Woodpecker zur Message Queue der Objektschicht usw.
Nach dem Erfolg im Open-Source-Bereich begann Zilliz zu überlegen, wie man diesen kommerzialisieren könnte, und entdeckte schließlich, dass es im Wesentlichen nur einen Weg gibt, Open-Source-Infrastruktur zu kommerzialisieren:Es bedeutet die Bereitstellung von SaaS-Diensten in der öffentlichen Cloud.Daher hat das Unternehmen neben dem Open-Source-Projekt Milvus auch die vollständig verwaltete Zilliz Cloud darauf aufbauend entwickelt. Viele unserer heutigen Unternehmenskunden lernten das Unternehmen ursprünglich über das Open-Source-Projekt Milvus kennen, was dazu führte, dass sie das Produkt erkannten und die nachfolgenden SaaS-Dienste weiterempfahlen.
Chen Hui: Aufbau eines leichtgewichtigen Backbone-Netzwerks zur Erzielung eines effizienten und präzisen visuellen Verständnisses am Netzwerkrand
Die Technologie des visuellen Verständnisses ist ein aktuelles Thema im Bereich der künstlichen Intelligenz und birgt ein hohes Potenzial für Forschung und Anwendung. Sie findet bereits breite Anwendung in mobilen Geräten, Robotern, autonomen Fahrzeugen und anderen Endgeräten. Aufgrund von Einschränkungen wie der unzureichenden Rechenleistung inländischer Chips und erheblicher Redundanz in traditionellen Modellstrukturen sowie dem Bedarf an hoher Flexibilität in komplexen Szenarien ist die Forschung an effizienten visuellen Modellen jedoch besonders dringlich.

Um den Anforderungen aktueller Terminalanwendungen gerecht zu werden,Das Team von Professor Chen Hui konzentrierte sich sowohl auf die Vielseitigkeit des Basismodells als auch auf die Effizienz der Inferenz und konstruierte ein leichtgewichtiges Backbone-Netzwerk, um ein effizientes und universelles visuelles Basismodell zu etablieren und so ein effizientes und genaues visuelles Kantenverständnis zu erreichen.Zu den wichtigsten technischen Aspekten gehören drei Aspekte:
* Entwurf asymmetrischer Deep-Learning-Strukturen und leichter dynamischer Netzwerkstrukturen;
* Echtzeit-End-to-End-Zielerkennungsmodell YOLOv10;
* Allgemeines visuelles Verständnis im offenen Bereich.
Um das durch die symmetrische „Training-Inferenz“-Struktur von Deep-Learning-Modellen verursachte Redundanzproblem zu lösen,Das Team schlug das Konzept der „asymmetrischen Deep-Learning-Architektur“ vor.Während der Trainingsphase wird eine komplexere Struktur verwendet, um effektiver zu lernen. In der Inferenzphase hingegen werden äquivalente Transformationen eingesetzt, um den Rechenaufwand zu reduzieren und so eine schnelle und ressourcenschonende Bereitstellung zu ermöglichen. Auf dieser Grundlage hat das Team mehrere einflussreiche Backbone-Netzwerke entwickelt, darunter RepViT (CVPR 2024) und LSNet (CVPR 2025).
Im Hinblick auf die Zielerkennung,Das Team konzentrierte sich darauf, zwei große Schwachstellen der YOLO-Serienmodelle zu überwinden: die Multi-Frame-Fusion, die zu einer NMS-Abhängigkeit führt, und die Redundanz in der Modellstruktur.Um diesem Problem zu begegnen, schlug das Team eine konsistente Dual-Label-Matching-Strategie vor. Während des Trainings werden sowohl Eins-zu-Eins- als auch Eins-zu-Viele-Erkennungsköpfe mit derselben Frequenz optimiert, während bei der Inferenz nur Eins-zu-Eins-Erkennungsköpfe verwendet werden. Dadurch wird eine verlustfreie, NMS-freie Erkennung gewährleistet.
Um die hohe Rechenkomplexität aufgrund struktureller Redundanz der Modelle zu bewältigen, wurden zudem effizienz- und genauigkeitsorientierte Modellentwurfsmethoden entwickelt. Auf Basis dieser Methoden wurde mit YOLOv10 (NeurIPS 2024) eine neue Generation von NMS-freien, hocheffizienten und hochpräzisen Zielerkennungsmodellen konstruiert, die ein optimales Verhältnis zwischen Leistung und Inferenzeffizienz erzielen.
* Sehen Sie sich den Artikel an:
https://hyper.ai/papers/2405.14458
Im Hinblick auf die Anwendung von Modellen in verschiedenen Szenarien stoßen traditionelle Objekterkennungsmodelle häufig an ihre Grenzen, da sie durch vordefinierte Label-Sets eingeschränkt sind. Dies erschwert die Anpassung an offene Szenarien in der realen Welt. Um diesem Problem zu begegnen, entwickelte das Team YOLOE (ICCV 2025), ein grundlegendes Modell für visuelles Verständnis in offenen Szenarien. Dieses umfangreiche Sprachmodell bietet generalisierbare, modalitätsübergreifende Repräsentationen, nutzt Techniken zur strukturellen Reparametrisierung, um die Komplexität der Inferenz zu reduzieren, und erzielt ein einheitliches Modell, das gleichzeitig offene Objekterkennung und -segmentierung unterstützt. Es unterstützt multimodale, offene Hinweise, darunter Text und Bild, und überwindet so die Grenzen traditioneller Modelle für visuelles Verständnis.
Lei Zhengyu: MoonBit, Open-Source-Praktiken zur Wiederherstellung der Softwareproduktivität im KI-nativen Zeitalter
MoonBits Forschung basiert auf einer zunehmend deutlichen Branchenrealität: Umfangreiche Modelle werden tief in den gesamten Softwareentwicklungsprozess integriert, doch bestehende Engineering-Systeme können sich dieser Veränderung nicht vollständig anpassen. Durch die tiefe Integration umfangreicher Modelle in den Entwicklungsprozess erlebt das Software-Engineering einen Paradigmenwechsel; KI ist nicht länger nur ein Werkzeug, sondern wird zu einem zentralen Bestandteil von Codegenerierung, Refactoring und Verifizierung.Das Modell wandelt sich schrittweise von der traditionellen Kombination aus „von Menschen geschriebenem Code und maschineller Unterstützung“ hin zu „KI-generierter Entwicklung und Überprüfung“. Das MoonBit-Team am IDEA Research Institute ist ein Vorreiter in diesem Bereich.

Dr. Lei Zhengyu, ein Kernentwickler der MoonBit-Community, erklärte, dass traditionelle Programmiersprachen bei ihrer ursprünglichen Konzeption nicht für die Interaktion mit KI optimiert wurden und dass KI-generierter Code oft unter schlechter Lesbarkeit, Schwierigkeiten beim Debuggen und Schwierigkeiten bei der Wiederverwendung leidet. MoonBits Ziel ist es, ein Softwareproduktionssystem neu zu entwickeln, das an das intelligente Zeitalter angepasst ist und auf einer KI-nativen Programmiersprache basiert.Ziel ist es, KI-generierten Code für Menschen verständlicher zu machen, ihn besser an die Ingenieurpraxis anzupassen und die Gesamteffizienz von Entwicklung, Refactoring und Debugging zu verbessern, um eine zukunftsorientierte, Cloud-native KI-Entwicklungsplattform auf Open-Source-Art aufzubauen.
In seiner Präsentation erwähnte Lei Zhengyu, dass MoonBits Sprachdesign, Compiler-Toolchain und Ökosystementwicklung drei Kernziele verfolgen:
* Es strebt nach maximaler Kompilierungsgeschwindigkeit und maximaler Zielgröße und verfügt über statische Analysefunktionen;
* Es zeichnet sich durch eine einfache Lernkurve und geringe Komplexität aus;
* Entwickeln Sie ausdrucksstarke Funktionen, die nicht auf Konventionen beruhen.
Angetrieben von dieser Richtung,Die MoonBit-Community hat Tausende von Open-Source-Paketen in verschiedenen Bereichen wie Webentwicklung, numerisches Rechnen und Open-Source-Middleware-SDKs zusammengetragen und damit ein florierendes Community-Ökosystem geschaffen.Im Bereich der Branchenkooperation knüpft MoonBit aktiv technische Verbindungen zu Python, JavaScript und WebAssembly. Dank automatisierter Kapselung, sprachübergreifender Aufrufe und einer einheitlichen Modulschnittstellen-Toolchain können Entwickler nicht nur das ausgereifte Python-Ökosystem direkt in MoonBit wiederverwenden, sondern auch nahtlos JavaScript-Code aufrufen oder WASM-Komponenten integrieren. Dies reduziert den Entwicklungsaufwand und die Kosten für Kompatibilität in sprachübergreifenden Szenarien erheblich.