Les Coulisses de ChatGPT : Comment la Deep Research API Révèle la Complexité Sous-jacente
Avec l'introduction de l'API Deep Research d'OpenAI, l'entreprise a dévoilé le fonctionnement interne de ChatGPT. Cette nouvelle révélation souligne l'importance pour les entreprises de comprendre que derrière une API, se cache une boîte noire dont la fonctionnalité sous-jacente reste largement inconnue. De nombreuses études ont déjà montré comment les modèles évoluent et dérivent derrière des APIs commerciales, laissant ainsi les utilisateurs à la merci des fournisseurs de modèles. Le document d'API Deep Research d'OpenAI met en lumière la séquence des requêtes profondes effectuées par ChatGPT, offrant des insights sur ce qui se passe réellement en arrière-plan. L'objectif de l'interface graphique utilisateur (GUI) de ChatGPT est de masquer toute complexité et de présenter une interface simple, mais il est fascinant de constater que trois appels de modèles sont effectués lors de l'utilisation de ChatGPT : deux modèles légers et le modèle de recherche profonde. Pour commencer, ChatGPT utilise un modèle d'assistance léger (comme GPT-4.1) afin de clarifier votre intention et de recueillir des détails tels que vos préférences ou vos objectifs avant de lancer la recherche. Cette étape permet de personnaliser les recherches web pour obtenir des résultats plus pertinents. Cependant, cette étape est omise dans l'API Deep Research, offrant ainsi aux développeurs la liberté de personnaliser la workflow selon leurs besoins. Ensuite, un autre modèle léger (par exemple GPT-4.1) appelé "prompt rewriter" prend la relève pour développer ou préciser les requêtes de l'utilisateur avant de les transmettre au modèle de recherche principale. Ces deux premiers modèles servent à mieux comprendre et contextualiser la demande de l'utilisateur, améliorant ainsi la qualité et la pertinence des résultats obtenus. Lorsqu'on examine les dessous de ChatGPT, on réalise la complexité de son fonctionnement interne, qui est une illustration importante du fait que la complexité doit bien être quelque part. Elle peut être présentée à l'utilisateur, qui devra alors la décrypter, ou elle peut être gérée en arrière-plan, derrière l'interface utilisateur. Dans le cas de ChatGPT, la gestion de cette complexité est déléguée au développeur, qui orchestre l'expérience utilisateur en son nom. Prenons en compte que trois modèles de langage sont impliqués dans le processus : un pour la désambiguïsation et la clarification des intentions de l'utilisateur, un second pour l'optimisation du prompt avant qu'il ne soit envoyé au modèle de recherche, et enfin le modèle de recherche lui-même. Cette approche montre que la solution unique n'est pas toujours la meilleure, et que l'utilisation de plusieurs modèles spécifiques et plus petits est souvent plus efficace. NVIDIA, par exemple, a développé une approche où un modèle de langage est formé pour identifier précisément l'outil à utiliser pour chaque étape ou sous-étape du processus. Cela souligne l'importance de la spécialisation des modèles pour des tâches particulières, plutôt que l'utilisation d'un seul modèle monolithique. Cette révélation apporte de précieuses leçons sur la conception et l'implémentation des interfaces utilisateur basées sur l'IA. Elle invite à repenser la manière dont on aborde la complexité et la modularité des systèmes, permettant une meilleure adaptation aux besoins des utilisateurs et une plus grande flexibilité pour les développeurs. En résumé, l'API Deep Research d'OpenAI offre une fenêtre sur les mécanismes internes de ChatGPT, mettant en évidence une architecture multicouche qui combine des modèles spécifiques pour améliorer la performance globale.