📚 Intermediate

Response Latency

Time elapsed between a user making a request and the system delivering a response — a critical factor in voice AI call quality.

¿Qué es la latencia de respuesta y por qué es crítica?

La latencia de respuesta es el tiempo que transcurre entre que el usuario termina de hablar y el asistente de voz IA comienza a responder. En una conversación telefónica, este intervalo define si la interacción se percibe como natural y fluida o como una experiencia frustrante con silencios incómodos.

Los humanos somos extremadamente sensibles a los tiempos de conversación. En un intercambio normal entre personas, el turno de respuesta ocurre en 200-400 ms. Más de 700 ms ya se percibe como una pausa, y más de 2 segundos genera la sensación de que la llamada se ha cortado o el sistema ha fallado.

Para un asistente de voz IA que gestiona citas clínicas, mantener una latencia inferior a 1,5 segundos no es un lujo técnico. Es el requisito mínimo para que el sistema se sienta profesional.

De dónde viene la latencia total

La latencia total de un asistente de voz IA es la suma de varios componentes que ocurren en secuencia.

El primero es el reconocimiento de voz (ASR): convertir el audio del paciente en texto. Los mejores sistemas hacen esto en 100-300 ms incluso con frases largas.

El segundo es el procesamiento NLP: analizar el texto para entender la intención y extraer datos como fecha, hora y tipo de cita. En modelos modernos, 100-200 ms.

El tercero es la consulta a la API del software de gestión. Este es habitualmente el componente más variable. Si el software de la clínica tiene una API rápida (menos de 200 ms), el total se mantiene bajo. Si la API es lenta o está sobrecargada, puede añadir 1-3 segundos al total.

El cuarto es la generación de respuesta (TTS): convertir el texto de respuesta en audio hablado. Con síntesis de voz moderna, menos de 200 ms para frases cortas.

La latencia total típica oscila entre 600 ms y 1,5 s en condiciones normales. Por encima de 2 s, se percibe como pausa.

El impacto de la latencia en métricas de negocio

Una latencia alta no es solo un problema técnico abstracto. Tiene consecuencias directas y medibles:

  • Mayor tasa de abandono: los pacientes cuelgan si sienten que el sistema no responde. Una latencia de 3+ segundos puede duplicar el abandono de llamadas.
  • Repetición de frases: el paciente piensa que no fue escuchado y repite lo que dijo, creando confusión.
  • Percepción de calidad: los pacientes asocian la lentitud del asistente con la calidad general de la clínica. Un asistente lento hace que la clínica parezca poco profesional.
  • Menor satisfacción: en encuestas de satisfacción post-llamada, la velocidad de respuesta del asistente correlaciona directamente con la valoración global.

Factores que degradan la latencia

Varios factores pueden incrementar la latencia de un sistema de voz IA:

  • Servidores geográficamente lejanos: un servidor de IA en Estados Unidos atendiendo llamadas de España añade 100-150 ms solo por distancia física. Los mejores sistemas tienen infraestructura en Europa para clientes europeos.
  • API del software de gestión lenta: este es el factor más frecuente y sobre el que el proveedor de IA tiene menos control. Algunos software legacy tienen respuestas de 1-3 segundos en sus APIs.
  • Red de la clínica saturada: en horas pico, una red local congestionada puede añadir latencia variable.
  • Consultas complejas: preguntar por disponibilidad para un terapeuta específico en una semana concreta es más costoso que una consulta genérica.

Cómo CAi optimiza la latencia

CAi implementa varias estrategias para mantener la latencia baja de forma consistente:

  • Infraestructura europea: servidores en la Unión Europea para reducir la latencia por distancia.
  • Caché de disponibilidad: para clínicas con patrones predecibles, se mantiene un caché local de disponibilidad que se actualiza proactivamente, reduciendo la necesidad de consultar la API en cada llamada.
  • Respuesta en streaming: el asistente comienza a generar audio de respuesta mientras aún está procesando la consulta a la API, solapando tiempos.
  • Monitorización de latencia: si la latencia supera umbrales configurados, el equipo recibe alertas para investigar y resolver la causa.

Preguntas frecuentes

¿Qué latencia es aceptable para un asistente de citas? Para que la conversación se perciba como natural, la latencia debe ser inferior a 1,5 segundos en el 95% de las interacciones. Por encima de 2 segundos de forma consistente, la experiencia se degrada de forma perceptible.

¿La velocidad de mi conexión a internet afecta la latencia del asistente? La conexión de internet de la clínica tiene un impacto mínimo en la latencia del asistente (que opera en la nube), pero sí afecta la velocidad de las consultas a la API del software de gestión si este está alojado localmente.

¿Puedo saber cuál es la latencia actual de mi asistente? CAi proporciona métricas de latencia en el panel de administración. Puedes ver el tiempo medio de respuesta por período, los percentiles P95 y P99, y las llamadas que superaron umbrales configurados.

Key Takeaways

  • En conversación telefónica, latencias superiores a 2 segundos se perciben como silencios incómodos — la velocidad del sistema es parte de la experiencia de usuario
  • La latencia total es suma de múltiples componentes: reconocimiento de voz + procesamiento NLP + consulta API de citas + generación de respuesta
  • Optimizar la latencia requiere infraestructura distribuida geográficamente — servidores en Europa para clínicas europeas reducen significativamente los tiempos
  • Medir y monitorizar la latencia en producción es esencial: problemas de latencia suelen ser los primeros síntomas de problemas de infraestructura graves

Difficulty Level

Requires basic understanding of technology. Prior knowledge helpful.

Understand How CAi Works

Explore our complete documentation and discover how response latency improves your clinic with CAi.

View Integrations