Mise à jour de l'API vocale en temps réel d'OpenAI : raisonnement niveau GPT-5, traduction dans plus de 70 langues et transcription en direct font leur apparition
OpenAI a annoncé jeudi que son Realtime API intégrera plusieurs nouvelles fonctionnalités d'intelligence vocale pour aider les développeurs à créer des applications capables d'écouter, de parler, de traduire et de transcrire en temps réel. Les produits clés incluent trois nouveaux modèles : le GPT-Realtime-2, fondé sur une capacité de raisonnement de niveau GPT-5, capable de traiter des instructions utilisateur plus complexes afin de réaliser des conversations vocales plus naturelles ; le GPT-Realtime-Translate, qui prend en charge la traduction en temps réel avec prise en charge de plus de 70 langues sources et 13 langues cibles, permettant un basculement instantané au cours du dialogue ; ainsi que le GPT-Realtime-Whisper, offrant une transcription audio vers texte en temps réel, achevant celle-ci simultanément à l'échange verbal. Selon OpenAI, ces nouveaux modèles font évoluer la technologie audio en temps réel d'une interaction simple « question-réponse » vers des interfaces vocales véritablement capables d'« écouter, raisonner, traduire, transcrire et exécuter des actions ». Les domaines d'application visés comprennent le service client, l'éducation, les médias, les événements et les plateformes dédiées aux créateurs. Concernant les risques potentiels de mauvaise utilisation, OpenAI indique avoir intégré des mécanismes de protection : lorsque le système détecte dans une conversation des contenus contraires aux directives relatives aux éléments nuisibles, il peut interrompre automatiquement l'échange. En matière de tarification, les services Translate et Whispr sont facturés à la minute, tandis que le modèle GPT-Realtime-2 est facturé selon la consommation de tokens, tous deux étant désormais disponibles via le Realtime API.
