Score Calibration es donde respondes una pregunta: "¿Puedo confiar en estas puntuaciones?" Una puntuación de 4.2 solo significa algo si la rúbrica aplica el mismo estándar a cada Candidato, en cada evaluación, a lo largo del tiempo. Esta pantalla te da las herramientas para verificarlo y para detectar el momento en que la calibración empieza a desviarse.
¿Qué es la calibración de la puntuación?
Cuando un agente de IA puntúa a un Candidato, evalúa la transcripción contra una rúbrica: un conjunto de dimensiones de habilidades blandas, cada una con criterios para lo que cuenta como un 0, 1, 2, 3, 4 o 5. La calibración significa que la rúbrica está aplicando esos criterios de forma consistente:
Un Candidato que da una respuesta sólida sobre resolución de problemas debería obtener la misma puntuación tanto si es la primera llamada del día como la centésima.
Dos Candidatos que dan respuestas con un nivel de detalle equivalente deberían recibir puntuaciones similares, sin importar por cuál evaluación pasaron.
Cuando la calibración falla, aparecen estos problemas: compresión de puntuaciones (todos puntúan entre 4 y 5), desviación de puntuaciones (score drift) (las puntuaciones suben o bajan gradualmente con el tiempo) o varianza inconsistente (algunos lotes muestran patrones de puntuación muy distintos).
Las cuatro tarjetas de KPI
Tarjeta | Qué buscar |
Avg Std. Deviation | Tu número principal de consistencia. Objetivo: ≤ 0.7. Advertencia: 0.7–1.1. Deficiente: > 1.1. |
Latest Trend | Compara la desviación estándar de la ola más reciente con la anterior. Negativa = mejoró; positiva = empeoró. |
Healthy Waves | Cantidad de olas donde la desviación estándar fue ≤ 0.7. Más olas saludables = un historial de puntuación más confiable. |
Poor Waves | Cantidad de olas donde la desviación estándar superó 1.1. Incluso una o dos vale la pena investigarlas. |
La desviación estándar, en lenguaje sencillo
La desviación estándar suena técnica, pero el concepto es simple. Imagina que puntuaste a 100 Candidatos y el promedio fue 3.5:
Std. Dev | Qué significa en la práctica |
0.5 | La mayoría de los Candidatos puntuó entre 3.0 y 4.0. La rúbrica es consistente: coincide consigo misma sobre cómo se ve un Candidato de "nivel 3.5". |
1.0 | Las puntuaciones van de 2.5 a 4.5. Hay un desacuerdo significativo en cómo se está evaluando a los Candidatos. |
1.5 | Las puntuaciones están por todas partes, de 2.0 a 5.0. La rúbrica no está trazando líneas consistentes entre los niveles de desempeño. |
Una "ola" (wave) es un lote de Candidatos puntuados dentro de una ventana de tiempo. El Hub agrupa automáticamente a los Candidatos puntuados en olas; tú no las defines. Si puntuaste a 50 Candidatos el lunes y a 50 el martes, esas son dos olas. Comparar sus desviaciones estándar te dice si la rúbrica funcionó igual en ambos días.
Gráfica Std. Deviation Over Time
Esta línea de tiempo muestra los valores diarios o semanales de desviación estándar codificados por color según su estado: verde (≤ 0.7), amarillo (0.7–1.1), rojo (> 1.1).
Un salto repentino suele estar relacionado con alguna de estas tres causas:
Se lanzó una nueva evaluación con una rúbrica no probada.
Una rúbrica o un prompt del sistema existente se modificó recientemente.
Pasó un lote grande de Candidatos atípicos: llamadas muy cortas, hablantes no nativos de inglés o fallos técnicos.
Distribución de puntuaciones y compresión
La gráfica de distribución de puntuaciones muestra cuántos Candidatos recibieron cada nivel de puntuación. Una distribución saludable tiene forma de campana, aproximadamente alrededor de 3. Si la mayoría de las puntuaciones se agrupa en 4–5, la rúbrica ha perdido su capacidad de diferenciar: esto es compresión de puntuaciones.
Por ejemplo: si el 93% de los Candidatos puntúa 4 o 5, un Candidato con 4.2 podría ser excelente o podría ser promedio. No puedes saberlo, porque casi todos reciben una puntuación similar.
Importante: la compresión de puntuaciones es un problema de calibración, no un problema de calidad de los Candidatos. No significa que todos tus Candidatos tengan un desempeño igual: significa que los criterios de puntuación son demasiado laxos. Los ajustes de la rúbrica los gestiona el equipo de Talkpush; no intentes cambiar la configuración por tu cuenta.
Qué revisar antes de contactar a tu representante
Revisa el lenguaje de la rúbrica. Si los criterios para un 4 o un 5 son demasiado fáciles de cumplir (por ejemplo, "el Candidato respondió la pregunta"), casi todos calificarán. Es probable que los criterios necesiten ajustarse.
Revisa el panorama por habilidad. Algunas habilidades pueden estar bien calibradas mientras otras están comprimidas. La sección Soft Skill Averages a continuación muestra esto: cualquier habilidad donde todos puntúan 4.0+ con baja desviación probablemente está comprimida.
Compara contratados vs. no contratados. Ve a Metrics → Outcome Analysis. Si los Candidatos contratados y los no contratados tienen distribuciones de puntuación similares, la puntuación no le está aportando valor a las decisiones de contratación.
Comparte tus hallazgos. Cuando contactes a tu representante de Talkpush, incluye la evaluación afectada, el período de tiempo y cualquier patrón que hayas detectado. Cuanto más rápido sea el diagnóstico, más rápido será el arreglo.
Soft Skill Averages
Esta sección desglosa la puntuación promedio y la desviación estándar para cada dimensión de habilidad. Úsala para identificar qué habilidades están generando los problemas de calibración:
Patrón | Qué señala |
Promedio alto (4.0+), desviación estándar baja | Sobrepuntuado. Los criterios para esta habilidad son demasiado fáciles. La rúbrica necesita ajustarse. |
Promedio bajo, desviación estándar alta | Criterios ambiguos. El lenguaje de la rúbrica puede ser poco claro o estar abierto a interpretación. |
Promedio moderado (2.5–3.5), desviación estándar moderada | Bien calibrado. La rúbrica está diferenciando a los Candidatos de forma efectiva para esta habilidad. |
El tamaño de la muestra importa. Una habilidad evaluada en 312 Candidatos es mucho más confiable que una evaluada en 1. Siempre revisa el conteo de "n evaluados" junto a cada habilidad antes de sacar conclusiones.
Flujos de trabajo comunes
Revisión mensual de calibración
Abre Score Calibration y configura el filtro de tiempo en "Last 30 days".
Revisa Avg Std. Deviation. ¿Es ≤ 0.7? Si sí, la puntuación está saludable.
Mira la gráfica Std. Deviation Over Time. ¿Hay picos en amarillo o rojo?
Revisa la Score Distribution. ¿Hay compresión (la mayoría de las puntuaciones en 4–5)?
Revisa Soft Skill Averages. ¿Hay dimensiones con promedios sospechosamente altos o desviaciones inusualmente grandes?
Si encuentras problemas, contacta a tu representante de Talkpush; los arreglos suelen implicar ajustes a la rúbrica o al prompt del sistema.
Cómo responder a una alerta de "poor wave"
Anota el período de tiempo desde la gráfica Std. Deviation Over Time.
Ve a Reports y filtra por ese rango de fechas.
Abre de 3 a 5 reportes de Candidatos de ese período y compara sus puntuaciones por dimensión.
Busca el patrón: ¿hay una habilidad puntuada de forma inconsistente? ¿Las llamadas cortas están recibiendo puntuaciones infladas? ¿Hay ciertos tipos de preguntas que producen evaluaciones poco confiables?
Contacta a tu representante de Talkpush con el período de tiempo afectado, el nombre del agente y qué dimensiones se ven inconsistentes.
Monitorea la siguiente ola para confirmar que el arreglo funcionó.
Cuándo contactar a tu representante de Talkpush
Se detecta compresión de puntuaciones (la mayoría de los Candidatos agrupados en la misma puntuación).
La desviación estándar está subiendo a lo largo de varias olas.
Una dimensión específica de habilidad blanda tiene un promedio sospechosamente alto (4.0+) con una desviación muy baja.
Aparecen "poor waves" que no puedes explicar por cambios en el volumen de Candidatos.
Ver también
Para volumen de pipeline, análisis de finalización y capacidad predictiva de las contrataciones, consulta Metrics: Volume, Outcomes, and Hiring Intelligence.




