API de conversión de voz a texto

Visite nuestro blog para obtener información, puntos de referencia, ejemplos de código y mucho más.

Centro de contacto

Cómo seleccionar un sistema de conversión de voz a texto/ASR para la asistencia al agente en tiempo real y los copilotos de IA basados en LLM

Por

Arun Santhebennur

min leer

Este artículo esboza los criterios de evaluación implicados en la selección de un Speech-to-Text o ASR en tiempo real para copilotos de IA impulsados por LLM y aplicaciones de asistencia a agentes en tiempo real en el centro de contacto. Este artículo está dirigido a los jefes de producto y a los directores de ingeniería de las empresas SaaS de IA para centros de contacto, así como a los directores de sistemas de información de las empresas que deseen crear copilotos de IA.

El rumor en torno a Gen AI-powered Co-Pilot & Realtime Agent Assist

Un caso de uso muy popular para la IA Generativa y los LLM es el Copiloto de IA o la Asistencia al Agente en Tiempo Real en los centros de contacto. Al transcribir una conversación agente-cliente en tiempo real y alimentar con la transcripción modernos LLM como GPT de Open AI, LLAMA2 de Facebook o Gemini de Google, los centros de contacto pueden guiar a sus agentes para que gestionen las llamadas de forma más eficaz y eficiente.

Un copiloto de IA puede aportar grandes beneficios empresariales. Puede mejorar el CSAT y el NPS, ya que la IA puede buscar rápidamente y presentar una base de conocimientos relevante al agente, permitiéndole ser más informado y productivo. También puede ahorrar costes de Agente FTE reduciendo AHT y eliminando el tiempo de envoltura.

Además, mediante la creación de una biblioteca de llamadas "estándar de oro" a través de diversos tipos de llamadas clave, LLM también puede ofrecer coaching personalizado a los agentes de forma automatizada utilizando Generative AI.Las empresas están descubriendo que mientras Gen AI-powered Co-Pilots son especialmente beneficiosos para los recién contratados, también ofrecen beneficios a los agentes con tenencia también.

La creación de un copiloto basado en IA requiere tres componentes principales: a) un motor ASR/Speech-to-Text en tiempo real para la transcripción; 2) un LLM para comprender la transcripción; y 3) aplicaciones web orientadas al agente y al supervisor/gestor. Este artículo se centra en el primer componente: el motor ASR/Speech-to-Text en tiempo real.

Estos son los cuatro factores clave que debe tener en cuenta al evaluar el motor ASR/Speech-to-Text en tiempo real.

1. Facilidad de integración con la fuente de audio

El primer paso para cualquier copiloto de IA es transmitir los medios en tiempo real del agente y del cliente a un ASR que admita la transmisión de voz a texto. Esta es sin duda la decisión de diseño de ingeniería más complicada de este proceso.

Hay dos enfoques principales: 1) Transmisión de audio desde el servidor. En un centro de contacto empresarial, esto significaría bifurcar los medios desde un controlador de borde de sesión empresarial o desde la plataforma del centro de contacto (que es la IP-PBX). 2) Streaming de audio desde el lado del cliente, es decir, desde el escritorio del agente. Un escritorio de Agente puede ser un cliente grueso basado en OS o un cliente ligero basado en navegador - esto depende de la plataforma CCaaS/Contact-Center que se utilice.

Seleccionar el método de integración es una decisión complicada. Aunque ambos enfoques presentan ventajas e inconvenientes, los enfoques del lado del servidor han sido la opción preferida. Esto se debe a que se evitaría la necesidad de instalar software cliente y planificar los recursos informáticos a nivel del escritorio del agente.

Sin embargo, si tiene un centro de contacto local como Avaya, Cisco o Genesys, la integración puede ser más complicada. Esto se debe a que cada plataforma tiene su propio mecanismo para bifurcar estos flujos de medios y también es necesario instalar el ASR/STT detrás del cortafuegos corporativo (o abrirlo para acceder a un ASR/STT basado en la nube).

En la red, también hay argumentos a favor de la transmisión por flujo continuo desde el cliente, ya que no todas las empresas disponen de los conocimientos necesarios.

Existen plataformas CCaaS modernas como Amazon Connect, Twilio Flex, Genesys Cloud y Five9 que ofrecen APIs/acceso programable a los flujos de medios. Estás de suerte si tienes una de estas plataformas. Además, si el acceso a la RTC se realiza a través de una plataforma CPaaS programable, como Twilio, Signalwire, Telnyx, etc., es bastante fácil.

2. Soporte de protocolo del ASR/STT

Una vez finalizado el método para bifurcar el audio, habría que tener en cuenta los protocolos estándar que admite el motor ASR/Speech-to-text. Lo ideal es que el motor ASR/STT sea flexible y admita múltiples opciones. Uno de los enfoques más comunes hoy en día consiste en transmitir audio a través de websockets. Es importante confirmar que el proveedor de ASR/voz-a-texto admite el envío de audio de dos canales/estéreo a través de websockets. Existen otros enfoques: compartir audio a través de gRPC y a través de RTP sin procesar.

3. Velocidad/ latencia del modelo ASR/Speech-to-Text

El siguiente factor a tener en cuenta es la latencia del modelo ASR/Speech-to-Text en tiempo real, que a su vez depende de la arquitectura de la red neuronal subyacente del modelo. Para ofrecer recomendaciones puntuales al agente, es importante centrarse en ASR que puedan ofrecer una transcripción palabra por palabra en menos de un segundo e, idealmente, en unos 500 milisegundos. Esto se debe a que existe una latencia adicional asociada a la recopilación y envío de la transcripción a los LLM y, a continuación, a la entrega de la información en el escritorio del agente.

4. Asequibilidad

Por último, pero no por ello menos importante, es muy importante que el precio de la transcripción en tiempo real sea asequible para que el Co-Pilot de IA resulte rentable. Es importante confirmar que el canal del agente y el de la persona que llama no tienen precios independientes, ya que eso suele acabar con el argumento comercial.

Si estás construyendo un copiloto de IA impulsado por LLM y te gustaría participar en un debate más profundo, ¡dínoslo! Puedes ponerte en contacto con nosotros en sales@voicegain.ai.

‍

Leer más →

Punto de referencia

Voicegain presenta un acuerdo de nivel de servicio relativo sobre la exactitud de la conversión de voz a texto

Por

Arun Santhebennur

min leer

Desde junio de 2020, Voicegain ha publicado evaluaciones comparativas sobre la precisión de su conversión de voz a texto en relación con motores de conversión de voz a texto/ASR de grandes empresas tecnológicas como Amazon, Google, IBM y Microsoft.

El conjunto de datos de referencia para esta comparación ha sido un conjunto de datos de terceros publicado por una parte independiente e incluye una amplia variedad de datos de audio: audiolibros, vídeos de youtube, podcasts, conversaciones telefónicas, reuniones con zoom y mucho más.

Aquí tiene un enlace a algunos de los puntos de referencia que hemos publicado.

1. Enlace al índice de referencia de precisión de junio de 2020

2. Enlace a la referencia de precisión de septiembre de 2020

3. Enlace a la referencia de precisión de junio de 2021

4. Enlace a la referencia de exactitud de octubre de 2021

5. Enlace a la referencia de precisión de junio de 2022

A través de este proceso, hemos adquirido conocimientos sobre lo que se necesita para ofrecer una alta precisión para un caso de uso específico.

Ahora presentamos a nuestros clientes una referencia de precisión relativa de voz a texto pionera en el sector. Por "relativa" se entiende que la precisión de Voicegain (medida por la tasa de errores de palabra) se comparará con la de una gran empresa tecnológica con la que el cliente nos esté comparando. Voicegain proporcionará un acuerdo de nivel de servicio que garantice que su precisión con respecto a esta gran empresa tecnológica será prácticamente la misma.

Seguimos el siguiente proceso de 4 pasos para calcular el SLA de precisión relativa

1. Identificar el conjunto de datos de referencia del cliente

En colaboración con el cliente, Voicegain selecciona un conjunto de datos de audio de referencia que sea representativo de los datos reales que procesará el cliente. Normalmente se trata de una selección aleatoria de audio del cliente. También recomendamos que los clientes conserven su propio conjunto de datos de referencia independiente, que no se comparte con Voicegain, para validar nuestros resultados.

2. Generar referencia dorada

Voicegain colabora con empresas líderes del sector en el etiquetado manual de IA para generar una transcripción precisa generada por humanos del 99% de este conjunto de datos de referencia. Nos referimos a esto como la referencia de oro.

3. Comparación de la precisión relativa

En este conjunto de datos de referencia, Voicegain proporcionará secuencias de comandos que permitan a los clientes realizar una comparación de la tasa de errores de palabras (WER) entre la plataforma Voicegain y cualquiera de los proveedores de ASR líderes del sector con los que el cliente nos esté comparando.

4. Calcular KPI para SLA de precisión relativa

‍ActualmenteVoicegain calcula los siguientes dos(2) KPIs

a. Mediana de la tasa de error de palabra: Se trata de la mediana de WER en todos los archivos de audio del conjunto de datos de referencia para ambos ASR‍.

b. Tasa de error de palabra del cuarto cuartil: Después de organizar los archivos de audio del conjunto de datos de referencia en orden creciente de WER con el ASR de Big Tech, calculamos y comparamos la WER media del cuarto cuartil tanto para Voicegain como para el ASR de Big Tech

Por tanto, garantizamos contractualmente que la precisión de Voicegain para los 2 KPI anteriores en relación con el otro ASR estará dentro de un umbral aceptable para el cliente.

¿Con qué frecuencia se mide este SLA de precisión?

Voicegain mide este SLA de precisión dos veces durante el primer año del contrato y una vez al año a partir del segundo año.

¿Qué ocurre si Voicegain no cumple el SLA?

Si Voicegain no cumple los términos del SLA de precisión relativa, entrenaremos el modelo acústico subyacente para que cumpla el SLA de precisión. Asumiremos los gastos asociados al etiquetado y al entrenamiento . Voicegain garantizará que cumplirá el SLA de precisión en un plazo de 90 días a partir de la fecha de medición.

Prueba Voicegain.

1. Haga clic aquí para obtener instrucciones para acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz interesante y quieres probar nuestras API, haz clic aquí para registrarte y obtener una cuenta de desarrollador y recibir 50 dólares en créditos gratuitos.

3. Si quieres llevar a Voicegain como tu propio asistente de transcripción de IA a las reuniones, haz clic aquí.

‍