Servicio · IA

API de Voz con Azure Speech

Pipeline de transcripción y síntesis en tiempo real para asistentes de voz.

Cliente
Startup B2B — LATAM
Rol
Backend Engineer
Duración
5 meses
Año
2024
Estado
Producción
Dashboard con waveform de audio y transcripción en vivo
fig. 00 — Dashboard con waveform de audio y transcripción en vivo
01

Contexto

Una empresa de atención al cliente quería migrar IVRs antiguos a flujos de voz natural en español neutro y dialectos regionales sin perder métricas de SLA.

02

Problema

El reto era mantener latencia conversacional (<400 ms) sobre conexiones móviles inestables, manejar interrupciones del usuario (barge-in) y transcribir con vocabulario específico del dominio bancario.

03

Aproximación

  1. 01

    Streaming bidireccional con FastAPI + WebSockets sobre HTTP/2.

  2. 02

    Pool de sesiones Azure Speech reutilizables, pre-calentadas para evitar cold-start.

  3. 03

    Diccionarios fonéticos custom por cliente para mejorar reconocimiento de productos financieros.

  4. 04

    Capa Redis para cache de respuestas TTS frecuentes y reducción de costo por minuto.

04

Resultados

Latencia p95320 ms
WER en dominio4.1%
Reducción costo TTS−38%
Llamadas/mes≈ 90k
Galería
Vistas del producto
Gráfico de latencia p95 sostenida en 320ms
fig. 01Métricas — p95 sostenido bajo conexiones móviles inestables
Definiciones del API en Python con FastAPI
fig. 02API — streaming bidireccional sobre HTTP/2
Siguiente proyecto
2024

Self-Hosting Stack para Equipos

Despliegue automatizado con Coolify, Traefik y Terraform sobre VPS propios.