NewsIA
En direct
Audio & Musique

OpenAI dévoile la voix intelligente dans son API : transcription, synthèse, conversation

OpenAI lance une nouvelle API "Voice Intelligence" : transcription multilangue, synthèse ultra-réaliste, conversation streaming. Tarifs et cas d'usage.


PartagerXLinkedInEmail
OpenAI dévoile la voix intelligente dans son API : transcription, synthèse, conversation
À retenir
  • OpenAI ouvre l API Voice Intelligence aux développeurs.
  • Latence sous 200ms, support de 30 langues, voix naturelles personnalisables.
  • Tarif : 0,06 $ la minute en input, 0,24 $ en output.
  • Concurrence frontale avec ElevenLabs et Hume AI.

Pour les développeurs qui veulent intégrer une IA conversationnelle vocale, le marché bascule de "ElevenLabs ou rien" à "ElevenLabs ou OpenAI".

OpenAI rend disponible son API Voice Intelligence en disponibilité générale, après plusieurs mois de preview.

🎙️
Voice Intelligence (OpenAI)

API d OpenAI permettant des interactions vocales bidirectionnelles avec un LLM. Architecture single-pass (pas de transcription puis génération séparées) qui permet une latence sous 200ms. Voix personnalisables, prosodie naturelle, gestion des interruptions.

Tarifs comparés

0,06$Input/min
0,24$Output/min
<200msLatence
30Langues
Service Input/min Output/min
OpenAI Voice 0,06 $ 0,24 $
ElevenLabs Conversational 0,10 $ 0,30 $
Hume AI 0,08 $ 0,25 $

Cas d usage cibles

  • Callbots support client
  • Tutorat vocal interactif
  • Assistants accessibilité
  • Doublage vidéo automatisé
  • Agents conversationnels en visio
  • PanoramaLes meilleurs outils d IA générative en 2026

    Questions fréquentes

    Voice Intelligence remplace-t-il Whisper et ChatGPT Voice ?
    Whisper 2 et ChatGPT Voice continuent de fonctionner. Voice Intelligence est une suite d'API séparée qui permet aux développeurs de construire leurs propres produits voix. Pour un usage final via ChatGPT, rien ne change.
    Le voice cloning est-il accessible à tous ?
    Non, il est restreint aux comptes Enterprise après vérification KYC. OpenAI veut éviter les abus (deepfakes vocaux). La création d'une voix clonée nécessite un consentement explicite documenté de la personne dont la voix est clonée.
    Pourquoi 280 ms de latence est important ?
    En dessous de 300 ms, la conversation est perçue comme fluide et naturelle. Au-delà, les interruptions et chevauchements deviennent gênants. ChatGPT Voice classique tournait à 350-500 ms. Voice Live à 280 ms est compétitif avec Gemini (180 ms) et largement utilisable en production.
    Modèles cités

    Source : techcrunch.com

    À lire aussi