Audio & Musique
OpenAI dévoile la voix intelligente dans son API : transcription, synthèse, conversation
OpenAI lance une nouvelle API "Voice Intelligence" : transcription multilangue, synthèse ultra-réaliste, conversation streaming. Tarifs et cas d'usage.
À retenir
- OpenAI ouvre l API Voice Intelligence aux développeurs.
- Latence sous 200ms, support de 30 langues, voix naturelles personnalisables.
- Tarif : 0,06 $ la minute en input, 0,24 $ en output.
- Concurrence frontale avec ElevenLabs et Hume AI.
Pour les développeurs qui veulent intégrer une IA conversationnelle vocale, le marché bascule de "ElevenLabs ou rien" à "ElevenLabs ou OpenAI".
OpenAI rend disponible son API Voice Intelligence en disponibilité générale, après plusieurs mois de preview.
Voice Intelligence (OpenAI)
API d OpenAI permettant des interactions vocales bidirectionnelles avec un LLM. Architecture single-pass (pas de transcription puis génération séparées) qui permet une latence sous 200ms. Voix personnalisables, prosodie naturelle, gestion des interruptions.
Tarifs comparés
0,06$Input/min
0,24$Output/min
<200msLatence
30Langues
| Service | Input/min | Output/min |
|---|---|---|
| OpenAI Voice | 0,06 $ | 0,24 $ |
| ElevenLabs Conversational | 0,10 $ | 0,30 $ |
| Hume AI | 0,08 $ | 0,25 $ |
Cas d usage cibles
Sources
Questions fréquentes
- Voice Intelligence remplace-t-il Whisper et ChatGPT Voice ?
- Whisper 2 et ChatGPT Voice continuent de fonctionner. Voice Intelligence est une suite d'API séparée qui permet aux développeurs de construire leurs propres produits voix. Pour un usage final via ChatGPT, rien ne change.
- Le voice cloning est-il accessible à tous ?
- Non, il est restreint aux comptes Enterprise après vérification KYC. OpenAI veut éviter les abus (deepfakes vocaux). La création d'une voix clonée nécessite un consentement explicite documenté de la personne dont la voix est clonée.
- Pourquoi 280 ms de latence est important ?
- En dessous de 300 ms, la conversation est perçue comme fluide et naturelle. Au-delà, les interruptions et chevauchements deviennent gênants. ChatGPT Voice classique tournait à 350-500 ms. Voice Live à 280 ms est compétitif avec Gemini (180 ms) et largement utilisable en production.
Modèles cités
Source : techcrunch.com
