2025 est l’année des agents et l’IA évolue rapidement : elle ne se contente plus de répondre à des questions, elle résout activement des problèmes. OpenAI a déjà conçu et lancé des produits dotés de ces capacités avancées, et ses clients (entreprises et consommateurs) en tirent déjà une réelle valeur. Operator et Deep Research sont désormais disponibles en France et témoignent d’une augmentation de la profondeur des travaux et de la valeur économique que l’IA peut offrir.
La semaine dernière, OpenAI a lancé le premier ensemble de briques fondamentales qui aideront les développeurs et les entreprises à créer des agents utiles et fiables plus efficacement sur sa plateforme.
Cela comprend :
-
La nouvelle API Responses qui simplifie la création d’agents et constitue la première brique pour exploiter les outils intégrés d’OpenAI afin de construire des agents. Il suffit de moins de quatre lignes de code pour démarrer – elle est conçue pour les développeurs qui souhaitent combiner aisément les modèles d’OpenAI et les outils intégrés dans leurs applications, sans la complexité d’intégrer plusieurs API ou fournisseurs externes.
-
L’API Responses intègre désormais des outils tels que la recherche sur le web, la recherche de fichiers et l’utilisation de l’ordinateur – les mêmes modèles qui alimentent la recherche dans ChatGPT et Operator – offrant aux agents un accès direct à des informations et fonctionnalités pertinentes.
-
Pour simplifier davantage le développement, le kit de développement logiciel (SDK) Agents permet aux développeurs de gérer facilement les flux de travail des agents ou de coordonner plusieurs agents ensemble.
En plus des nouveaux outils pour agents, OpenAI lance cette semaine de nouveaux modèles audio de reconnaissance vocale (speech-to-text) et de synthèse vocale (text-to-speech) dans l’API, rendant possible la création d’agents vocaux plus puissants, personnalisables et intelligents qui offrent une véritable valeur ajoutée.
-
Les deux derniers modèles de reconnaissance vocale établissent un nouveau standard de pointe, surpassant les solutions existantes sur des critères tels que le taux d’erreur de mots (WER) en anglais ainsi que dans plusieurs autres grandes langues.
-
Nous introduisons également un nouveau modèle de synthèse vocale avec une meilleure capacité de guidage. Pour la première fois, les développeurs peuvent également demander au modèle de synthèse vocale de parler d’une manière spécifique.
Grâce à ces nouveaux modèles audio, les développeurs peuvent construire des systèmes de reconnaissance vocale plus précis et robustes ainsi que des voix de synthèse expressives et pleines de caractère, le tout via l’API.
