MedGen : Déverrouiller la Génération de Vidéos Médicales par le Scalage de Vidéos Médicales Annotées de Façon Granulaire

Les récentes avancées dans la génération de vidéos ont montré des progrès remarquables dans des contextes ouverts, mais la génération de vidéos médicales reste largement sous-exploitée. Les vidéos médicales sont essentielles pour des applications telles que la formation clinique, l'éducation et la simulation, nécessitant non seulement une haute fidélité visuelle mais aussi une précision médicale stricte. Cependant, les modèles actuels produisent souvent du contenu irréaliste ou erroné lorsqu'ils sont appliqués à des prompts médicaux, principalement en raison du manque de grands ensembles de données de haute qualité adaptés au domaine médical. Pour combler cette lacune, nous présentons MedVideoCap-55K, le premier ensemble de données à grande échelle, diversifié et riche en légendes destiné à la génération de vidéos médicales. Il comprend plus de 55 000 clips soigneusement sélectionnés couvrant des scénarios médicaux réels, offrant une base solide pour l'entraînement de modèles généraux de génération de vidéos médicales. Sur la base de cet ensemble de données, nous avons développé MedGen, qui obtient des performances leaders parmi les modèles open source et rivalise avec les systèmes commerciaux sur plusieurs benchmarks tant en termes de qualité visuelle que de précision médicale. Nous espérons que notre ensemble de données et notre modèle pourront servir de ressources précieuses et aider à catalyser d'autres recherches en matière de génération de vidéos médicales. Notre code et nos données sont disponibles à l'adresse suivante : https://github.com/FreedomIntelligence/MedGen