HyperAIHyperAI

Command Palette

Search for a command to run...

OpenAI lance GABRIEL : un outil open-source pour analyser à grande échelle les données qualitatives avec l’IA

L’un des axes centraux de notre travail chez OpenAI consiste à aider les scientifiques à avancer plus vite et à relever des défis plus complexes. Aujourd’hui, notre équipe de recherche économique lance GABRIEL : un outil open source qui utilise GPT pour transformer des données non structurées — textes et images — en mesures quantitatives. Conçu pour les économistes, les scientifiques sociaux et les data scientists, GABRIEL permet d’analyser à grande échelle des données qualitatives, autrefois difficiles à exploiter. Les données qualitatives offrent les récits les plus riches sur le monde : ce que les gens disent, écrivent, enseignent, débattent ou vivent. Elles incluent des syllabus, des entretiens, les réseaux sociaux, des photographies, et bien plus encore. Leur volume est immense. Pourtant, les transformer en preuves rigoureuses est extrêmement chronophage — souvent impossible en pratique. Trop souvent, les chercheurs doivent abandonner des pistes prometteuses non pas parce que les données manquent, mais parce qu’elles sont trop difficiles à analyser. GABRIEL a été conçu pour rendre ces données bien plus accessibles. Il permet aux chercheurs de formuler leurs questions en langage courant — par exemple : « À quel point cette annonce d’emploi est-elle favorable aux familles ? » — puis d’appliquer cette même question de manière cohérente à des milliers, voire des millions de documents, en obtenant une note pour chacun. Ainsi, les chercheurs peuvent réduire considérablement le temps passé sur l’étiquetage répétitif des données et se concentrer sur les aspects essentiels de leur travail : choisir ce qu’il faut mesurer, valider les résultats, et tirer des conclusions soigneuses. Par exemple, GABRIEL peut analyser une vaste collection d’articles scientifiques pour suivre l’évolution des méthodes utilisées au fil du temps. Il peut évaluer les programmes d’enseignement afin de mesurer l’importance accordée à différentes matières ou compétences. Il peut extraire des informations historiques structurées pour chaque petite ville d’Europe, ou explorer des centaines de milliers d’avis clients pour identifier les critères qui comptent le plus aux yeux des consommateurs. Dans notre article scientifique, nous évaluons les performances de GPT sur diverses tâches d’étiquetage qualitatif et constatons une grande précision. Au-delà de la mesure, GABRIEL propose également des outils pratiques très utiles. Il permet de fusionner des jeux de données même lorsque leurs colonnes ne correspondent pas, de supprimer efficacement les doublons, de coder des passages spécifiques, d’élaborer de nouvelles hypothèses scientifiques, ou encore de masquer les informations personnelles dans les textes pour préserver la vie privée. GABRIEL est désormais disponible en tant que bibliothèque Python open source, accompagnée d’un notebook de démarrage facile à utiliser. Conçu pour être accessible même aux utilisateurs peu familiers avec le code, il continuera d’évoluer grâce aux retours de la communauté académique. Nous espérons que cet outil aidera de nombreux chercheurs à intégrer la richesse des données qualitatives et des récits humains dans leurs travaux.

Liens associés