Verificación de Voz e Identidad en Video | Centro de Ayuda de Talkpush

La Verificación de Voz ayuda a detectar fraude de identidad en entrevistas conducidas por IA, comparando la voz del candidato durante la Llamada de IA con una huella de voz generada a partir de sus respuestas previas en video. Esto crea una verificación de identidad confiable que refuerza la integridad en cada entrevista, sin agregar pasos adicionales para los reclutadores ni para los candidatos. Es especialmente valiosa en entornos de contratación masiva donde la velocidad y la precisión en la evaluación deben ir de la mano.

Una vez completada una entrevista, el resultado se muestra como una insignia en el perfil del candidato junto al TalkScore, lo que le da al equipo reclutador una señal clara y estructurada sobre la confianza en la identidad, de un solo vistazo.

Nota: Esta función requiere que un administrador de la empresa habilite la Verificación de Voz para tu tenant. Se necesita acceso de propietario para configurar qué preguntas capturan la huella de voz. Contacta a tu gerente de cuenta para solicitar la activación.

El problema que queríamos resolver

La mayoría de los candidatos que realizan evaluaciones de IA hoy en día lo hacen desde un teléfono móvil. En mercados como Filipinas, ese número está cerca del 90%.

Los métodos de trampa que la mayoría de las herramientas de monitoreo están diseñadas para detectar — cambiar de pantalla, abrir una segunda pestaña, alternar hacia otra aplicación — requieren una computadora de escritorio. En dispositivos móviles, no hay a dónde cambiar. La señal que esas herramientas generan en un contexto de uso mayoritariamente móvil no es significativa.

El método que realmente funciona hoy cuesta casi nada: dos teléfonos. El candidato sostiene uno frente a la cámara. Una segunda persona responde la Llamada de IA en el otro. No ocurre ningún cambio de pantalla. No aparece ninguna anomalía visual. La grabación se ve limpia.

Había una segunda limitación que no queríamos ignorar. Una entrevista en video de sesión completa implica aproximadamente 200 MB de datos. Para un candidato que realiza una evaluación con un plan de datos móviles, eso tiene un costo real — y se refleja directamente en las tasas de finalización. Pedirle a cada candidato que asuma ese gasto para detectar una amenaza que la herramienta no está detectando realmente no es una compensación que valga la pena.

Estos fueron los dos aspectos que quisimos resolver: detectar la trampa que realmente está ocurriendo, sin hacer que completar la evaluación sea más difícil — ni más costoso — para los candidatos.

Un mejor enfoque: Verificación de Voz

La Verificación de Voz está diseñada en torno al método de trampa que realmente está ocurriendo. La diarización de múltiples hablantes analiza cada grabación de la Llamada de IA para detectar la cantidad de voces distintas presentes. Si se detectan tres o más — el candidato, el agente de IA y un tercer hablante — el sistema identifica la entrevista cedida y la marca, independientemente de lo que muestre la cámara. No es necesario vigilar ninguna pantalla. No necesita aparecer ninguna señal visual.

El registro utiliza el video de clasificación que el candidato ya graba como parte de tu campaña. No hay sesión de monitoreo adicional, ningún paso extra para el candidato y ninguna carga adicional de ancho de banda. La propia Llamada de IA es solo de voz. En áreas donde la conectividad es deficiente, la evaluación también puede realizarse por teléfono. La arquitectura fue elegida específicamente para que proteger la integridad de la entrevista no sea a costa del candidato.

Detectar la entrevista cedida — tres o más voces distintas en una llamada generan una discrepancia automática, independientemente de lo que aparezca en la cámara.
Eliminar la carga de ancho de banda — un video de clasificación corto para el registro, más una Llamada de IA solo de voz, usa una fracción de los datos de una sesión de entrevista en video completa.
Detectar intentos baratos de clonación de voz como efecto secundario — un clon de voz instantáneo de baja calidad sigue teniendo diferencias detectables que el modelo de verificación identifica al compararlo con la huella de voz registrada.
Mostrar los resultados donde ya trabaja tu equipo — los tres atributos de verificación se integran en los filtros, exportaciones y motores de reglas existentes sin necesidad de cambios en la integración.

¿Y la captura de pantalla?

Es natural querer ambas cosas — verificación de voz y captura de pantalla funcionando de manera simultánea. Lo consideramos y decidimos no incluir la captura de pantalla como parte de esta función.

El patrón de fraude que la captura de pantalla pretende disuadir — que otra persona responda en nombre del candidato — ya está detectado por la diarización de múltiples hablantes. Si aparece una tercera voz en la grabación de la Llamada de IA, el sistema la marca independientemente de lo que muestre la cámara. No hay ninguna señal adicional que la captura de pantalla aporte en este escenario.

Lo que la captura de pantalla sí agrega es un costo: carga en el ancho de banda, fricción al momento de la evaluación y una preocupación de privacidad para los candidatos. Decidimos no incluirla porque le pediría más a cada candidato sin darle a tu equipo nada que la Verificación de Voz no proporcione ya.

Verificación de Voz y voces generadas por IA

La Verificación de Voz puede marcar intentos de clonación de voz de baja calidad cuando la voz de la Llamada de IA no coincide suficientemente con la huella de voz registrada. Las comparaciones entre una voz real y su versión generada por texto a voz han arrojado "sin coincidencia" en las pruebas de verificación.

La Verificación de Voz compara la voz de la Llamada de IA con la huella de voz registrada capturada de las respuestas de clasificación anteriores del candidato. Las diferencias introducidas por el habla sintética o alterada pueden reducir la puntuación de confianza y generar un resultado de discrepancia.

Las voces sintéticas más avanzadas o las técnicas de clonación de mayor calidad pueden seguir pasando si se asemejan suficientemente a la huella de voz registrada. El sistema está diseñado para verificar la consistencia de la voz entre la Llamada de IA y las muestras de registro originales.

Cómo funciona

Una vez que la Verificación de Voz está habilitada para tu tenant, los tres pasos siguientes se ejecutan automáticamente para cada candidato que tenga una huella de voz registrada.

El candidato responde una pregunta marcada. Cuando un candidato responde a una pregunta de audio o video con la opción Capturar huella de voz habilitada, su voz se captura de forma silenciosa en segundo plano. El candidato no percibe ningún cambio en su experiencia.
Se completa la Llamada de IA. Después de que el candidato termina su Llamada de IA, la grabación completa se envía automáticamente para su análisis mediante diarización de múltiples hablantes.
El resultado aparece en el perfil del candidato. Una insignia aparece en el encabezado del perfil del candidato, mostrando el resultado de la verificación y la puntuación de confianza.

Cómo leer la insignia

Insignia	Qué significa
✅ Voz verificada · N%	Coincidencia con alta confianza — la voz en la Llamada de IA coincide con la huella de voz registrada (≥85% de confianza). No se requiere acción.
🟡 Revisión de voz · N%	Coincidencia en el límite — se requiere el criterio del reclutador (55–84% de confianza).
🔴 Discrepancia de voz · N%	Se detectó una voz diferente o la confianza es baja (<55%). Marcar para seguimiento.
🔴 Discrepancia de voz	Falla del proveedor — no se devolvió ninguna puntuación de confianza. Marcar para seguimiento.

Nota: "Voz verificada" significa que la voz en la Llamada de IA coincidió con las respuestas de clasificación anteriores del candidato por encima del umbral de confianza. No significa que se haya verificado una identificación gubernamental.

Cómo lo vive el candidato

Nada cambia para el candidato. Tanto si la función está activada como si no, el flujo de solicitud se ve idéntico — sin ningún mensaje adicional, ninguna divulgación extra, ningún paso nuevo.

Cómo se ve en Talkpush

Marca las preguntas que capturan la huella de voz

Una vez que la Verificación de Voz está habilitada, puedes elegir qué preguntas de audio o video se utilizarán para crear la huella de voz.

Abre la Pestaña de Plantillas y ve a Preguntas.
Edita una pregunta de audio o video.
Activa la casilla Capturar huella de voz.
Haz clic en Guardar.

Nota: La casilla Capturar huella de voz solo aparece en los tipos de pregunta de audio y video. Las preguntas de texto, menú desplegable y otros tipos que no requieren habla no pueden tener habilitado el registro de huella de voz.

Revisa los resultados en el perfil del candidato

Una vez que un candidato completa una Llamada de IA y existe una huella de voz para su solicitud, la insignia se actualiza automáticamente.

Los siguientes atributos también se generan y están disponibles en los filtros, exportaciones y motores de reglas de tu campaña. No se requieren cambios en la integración.

Atributo	Definición
Verificación de Voz	El resultado de la verificación. Valores posibles: `verified`, `review`, `no_match` o `error`.
Confianza de Verificación de Voz	Una puntuación porcentual (0–100) que indica qué tan estrechamente la voz de la Llamada de IA coincidió con la huella de voz registrada. Un valor más alto indica una mayor coincidencia.
Verificación de Voz en	La fecha y hora en que se generó el resultado de la verificación, registrada cuando se completó el análisis de la Llamada de IA.

P: ¿Qué ocurre si el registro de la huella de voz falla en la respuesta de un candidato?

R: Aparece un breve mensaje de error debajo de esa respuesta específica en el perfil del candidato. El proceso de la Llamada de IA nunca se bloquea — si no existe ninguna huella de voz cuando se completa la llamada, esta finaliza con normalidad y no se muestra ninguna insignia.

P: ¿Es necesario actualizar las integraciones existentes?

R: No. Si recibes el webhook de la Llamada de IA (push_ai_call), los tres valores de verificación aparecerán automáticamente en el bloque application.others una vez que la función esté habilitada — no se requieren cambios de tu parte.

P: ¿Es necesaria alguna revisión legal antes de habilitar esta función?

R: Las huellas de voz son datos biométricos en varias jurisdicciones. Si operas en la UE, el Reino Unido u otras regiones con regulaciones sobre datos biométricos, consulta a tu gerente de cuenta antes de habilitar la Verificación de Voz.