Contexto
Una empresa de atención al cliente quería migrar IVRs antiguos a flujos de voz natural en español neutro y dialectos regionales sin perder métricas de SLA.
Problema
El reto era mantener latencia conversacional (<400 ms) sobre conexiones móviles inestables, manejar interrupciones del usuario (barge-in) y transcribir con vocabulario específico del dominio bancario.
Aproximación
- 01
Streaming bidireccional con FastAPI + WebSockets sobre HTTP/2.
- 02
Pool de sesiones Azure Speech reutilizables, pre-calentadas para evitar cold-start.
- 03
Diccionarios fonéticos custom por cliente para mejorar reconocimiento de productos financieros.
- 04
Capa Redis para cache de respuestas TTS frecuentes y reducción de costo por minuto.



