MedGen: Die Freischaltung der Erstellung medizinischer Videos durch Skalierung granular annotierter medizinischer Videos

Neuere Fortschritte im Bereich der Videogenerierung haben erstaunliche Erfolge in offenen Domänen gezeigt, doch die Generierung medizinischer Videos bleibt weitgehend unerforscht. Medizinische Videos sind für Anwendungen wie klinisches Training, Bildung und Simulation von entscheidender Bedeutung und erfordern nicht nur eine hohe visuelle Qualität, sondern auch strenge medizinische Genauigkeit. Aktuelle Modelle produzieren jedoch oft unrealistischen oder fehlerhaften Inhalt, wenn sie auf medizinische Anforderungen angewendet werden, hauptsächlich aufgrund des Mangels an umfangreichen, hochwertigen Datensätzen, die speziell für den medizinischen Bereich angelegt wurden. Um diese Lücke zu schließen, stellen wir MedVideoCap-55K vor, den ersten großen, vielfältigen und reich mit Beschreibungen versehenen Datensatz für die Generierung medizinischer Videos. Er umfasst über 55.000 sorgfältig ausgewählte Clips, die verschiedene realweltliche medizinische Szenarien abdecken und eine solide Grundlage für das Training allgemeiner Modelle zur Generierung medizinischer Videos bieten. Auf Basis dieses Datensatzes entwickeln wir MedGen, das unter offenen Quellen führende Leistungen erzielt und kommerzielle Systeme in mehreren Benchmarks sowohl in Bezug auf visuelle Qualität als auch medizinische Genauigkeit gleichwertig ist. Wir hoffen, dass unser Datensatz und unser Modell eine wertvolle Ressource darstellen und weitere Forschung zur Generierung medizinischer Videos ankurbeln können. Unser Code und unsere Daten sind unter https://github.com/FreedomIntelligence/MedGen verfügbar.