ORacle : grands modèles vision-langage pour une modélisation holistique du domaine OR guidée par les connaissances

Chaque jour, des dizaines de milliers d’interventions chirurgicales sont réalisées dans le monde entier, chacune dans un environnement opératoire (OR) unique, qui varie non seulement en configuration, mais aussi en personnel, outils et équipements utilisés. Cette diversité intrinsèque pose un défi majeur pour parvenir à une compréhension globale du bloc opératoire, car elle exige que les modèles soient capables de généraliser au-delà de leurs jeux de données d’entraînement initiaux. Pour réduire cet écart, nous introduisons ORacle, un modèle vision-langage avancé conçu pour une modélisation holistique du domaine OR, intégrant des capacités multi-vues et temporelles, et capable d’utiliser des connaissances externes lors de l’inférence, lui permettant ainsi de s’adapter à des scénarios chirurgicaux auparavant inconnus. Cette capacité est renforcée par notre nouveau cadre d’augmentation de données, qui diversifie significativement le jeu d’entraînement, assurant ainsi que ORacle maîtrise efficacement l’application des connaissances fournies. Dans des tests rigoureux, tant en génération de graphes de scène qu’en tâches ultérieures sur le jeu de données 4D-OR, ORacle non seulement atteint des performances de pointe, mais le fait en nécessitant moins de données que les modèles existants. En outre, sa capacité d’adaptation se manifeste par sa capacité à interpréter des vues, des actions et des apparences inédites d’outils et d’équipements. Cela démontre le potentiel d’ORacle à considérablement améliorer l’évolutivité et la rentabilité de la modélisation du domaine OR, tout en ouvrant la voie à des avancées futures en science des données chirurgicales. Nous rendrons notre code et nos données disponibles à l’acceptation de cette publication.