API | Plataforma de voz a texto

Visite nuestro blog para obtener información, puntos de referencia, ejemplos de código y mucho más.

Centro de contacto

Cómo seleccionar un sistema de conversión de voz a texto/ASR para la asistencia al agente en tiempo real y los copilotos de IA basados en LLM

Por

Arun Santhebennur

min leer

Este artículo esboza los criterios de evaluación implicados en la selección de un Speech-to-Text o ASR en tiempo real para copilotos de IA impulsados por LLM y aplicaciones de asistencia a agentes en tiempo real en el centro de contacto. Este artículo está dirigido a los jefes de producto y a los directores de ingeniería de las empresas SaaS de IA para centros de contacto, así como a los directores de sistemas de información de las empresas que deseen crear copilotos de IA.

El rumor en torno a Gen AI-powered Co-Pilot & Realtime Agent Assist

Un caso de uso muy popular para la IA Generativa y los LLM es el Copiloto de IA o la Asistencia al Agente en Tiempo Real en los centros de contacto. Al transcribir una conversación agente-cliente en tiempo real y alimentar con la transcripción modernos LLM como GPT de Open AI, LLAMA2 de Facebook o Gemini de Google, los centros de contacto pueden guiar a sus agentes para que gestionen las llamadas de forma más eficaz y eficiente.

Un copiloto de IA puede aportar grandes beneficios empresariales. Puede mejorar el CSAT y el NPS, ya que la IA puede buscar rápidamente y presentar una base de conocimientos relevante al agente, permitiéndole ser más informado y productivo. También puede ahorrar costes de Agente FTE reduciendo AHT y eliminando el tiempo de envoltura.

Además, mediante la creación de una biblioteca de llamadas "estándar de oro" a través de diversos tipos de llamadas clave, LLM también puede ofrecer coaching personalizado a los agentes de forma automatizada utilizando Generative AI.Las empresas están descubriendo que mientras Gen AI-powered Co-Pilots son especialmente beneficiosos para los recién contratados, también ofrecen beneficios a los agentes con tenencia también.

La creación de un copiloto basado en IA requiere tres componentes principales: a) un motor ASR/Speech-to-Text en tiempo real para la transcripción; 2) un LLM para comprender la transcripción; y 3) aplicaciones web orientadas al agente y al supervisor/gestor. Este artículo se centra en el primer componente: el motor ASR/Speech-to-Text en tiempo real.

Estos son los cuatro factores clave que debe tener en cuenta al evaluar el motor ASR/Speech-to-Text en tiempo real.

1. Facilidad de integración con la fuente de audio

El primer paso para cualquier copiloto de IA es transmitir los medios en tiempo real del agente y del cliente a un ASR que admita la transmisión de voz a texto. Esta es sin duda la decisión de diseño de ingeniería más complicada de este proceso.

Hay dos enfoques principales: 1) Transmisión de audio desde el servidor. En un centro de contacto empresarial, esto significaría bifurcar los medios desde un controlador de borde de sesión empresarial o desde la plataforma del centro de contacto (que es la IP-PBX). 2) Streaming de audio desde el lado del cliente, es decir, desde el escritorio del agente. Un escritorio de Agente puede ser un cliente grueso basado en OS o un cliente ligero basado en navegador - esto depende de la plataforma CCaaS/Contact-Center que se utilice.

Seleccionar el método de integración es una decisión complicada. Aunque ambos enfoques presentan ventajas e inconvenientes, los enfoques del lado del servidor han sido la opción preferida. Esto se debe a que se evitaría la necesidad de instalar software cliente y planificar los recursos informáticos a nivel del escritorio del agente.

Sin embargo, si tiene un centro de contacto local como Avaya, Cisco o Genesys, la integración puede ser más complicada. Esto se debe a que cada plataforma tiene su propio mecanismo para bifurcar estos flujos de medios y también es necesario instalar el ASR/STT detrás del cortafuegos corporativo (o abrirlo para acceder a un ASR/STT basado en la nube).

En la red, también hay argumentos a favor de la transmisión por flujo continuo desde el cliente, ya que no todas las empresas disponen de los conocimientos necesarios.

Existen plataformas CCaaS modernas como Amazon Connect, Twilio Flex, Genesys Cloud y Five9 que ofrecen APIs/acceso programable a los flujos de medios. Estás de suerte si tienes una de estas plataformas. Además, si el acceso a la RTC se realiza a través de una plataforma CPaaS programable, como Twilio, Signalwire, Telnyx, etc., es bastante fácil.

2. Soporte de protocolo del ASR/STT

Una vez finalizado el método para bifurcar el audio, habría que tener en cuenta los protocolos estándar que admite el motor ASR/Speech-to-text. Lo ideal es que el motor ASR/STT sea flexible y admita múltiples opciones. Uno de los enfoques más comunes hoy en día consiste en transmitir audio a través de websockets. Es importante confirmar que el proveedor de ASR/voz-a-texto admite el envío de audio de dos canales/estéreo a través de websockets. Existen otros enfoques: compartir audio a través de gRPC y a través de RTP sin procesar.

3. Velocidad/ latencia del modelo ASR/Speech-to-Text

El siguiente factor a tener en cuenta es la latencia del modelo ASR/Speech-to-Text en tiempo real, que a su vez depende de la arquitectura de la red neuronal subyacente del modelo. Para ofrecer recomendaciones puntuales al agente, es importante centrarse en ASR que puedan ofrecer una transcripción palabra por palabra en menos de un segundo e, idealmente, en unos 500 milisegundos. Esto se debe a que existe una latencia adicional asociada a la recopilación y envío de la transcripción a los LLM y, a continuación, a la entrega de la información en el escritorio del agente.

4. Asequibilidad

Por último, pero no por ello menos importante, es muy importante que el precio de la transcripción en tiempo real sea asequible para que el Co-Pilot de IA resulte rentable. Es importante confirmar que el canal del agente y el de la persona que llama no tienen precios independientes, ya que eso suele acabar con el argumento comercial.

Si estás construyendo un copiloto de IA impulsado por LLM y te gustaría participar en un debate más profundo, ¡dínoslo! Puedes ponerte en contacto con nosotros en sales@voicegain.ai.

‍

Leer más →

ASR

Voicegain: Un sustituto sin fisuras para el ASR basado en la gramática de Nuance

Por

Arun Santhebennur

2 minutos

min leer

Esta entrada de blog está dirigida a cualquier persona responsable de la actualización/migración de un ASR de Nuance basado en MRCP próximo al EOL (End of Life). Pueden explorar cómo Voicegain ASR simplifica y prolonga económicamente la vida de las plataformas de voz-IVR existentes. Sirve como sustituto inmediato del ASR de Nuance basado en gramática.

Nuance ASR llega al final de su vida útil

Existen varios cientos (si no miles) de IVR basados en telefonía y habilitados para voz que actúan como "puerta de entrada" para todas las llamadas telefónicas de atención al cliente de empresas de todos los tamaños. Estos IVR de voz se basan en plataformas como Genesys Voice Portal (GVP), Genesys Engage, Avaya Aura Experience Portal (AAEP)/Avaya Voice Portal , Cisco Voice Portal (CVP), Aspect o la plataforma Voxeo ProphecyVoiceXML y otras soluciones IVR basadas en VoiceXML. Los sistemas utilizan principalmente Nuance ASR como motor de reconocimiento de voz.

A diferencia de los motores ASR/STT contemporáneos basados en redes neuronales de gran vocabulario, el ASR tradicional de Nuance es un ASR basado en gramática. Utiliza el protocolo MRCP para comunicarse con plataformas IVR basadas en VoiceXML. La mayoría de estos sistemas se adquirieron en las dos últimas décadas (2000 y 2010). Los clientes solían pagar una licencia perpetua basada en puertos (las plataformas IVR también tenían una licencia similar). La mayoría de las empresas tienen contratos de mantenimiento de software/AMC para el ASR de Nuance y esto generalmente se incluye junto con la plataforma IVR. Las versiones de Nuance Recognizer en el mercado varían entre 9.0 y 11.0. En junio de 2022, Nuance había anunciado el fin del soporte para Nuance 10.0. Tenemos entendido, al hablar con los clientes, que la última versión de Nuance vendida, Nuance 11.0 Recognizer, llegará al final de su vida útil o al final de su capacidad de pedido en algún momento de ^2025*.

La ruta de actualización de Nuance es todo un reto

Además, al hablar con los clientes, hemos entendido que los clientes que actualmente tienen licencia para el ASR de Nuance basado en gramática MRCP tendrían que actualizarse al motor Krypton de Nuance, el nuevo ASR basado en aprendizaje profundo en 2025. Solo se puede acceder a Nuance Krypton utilizando la moderna API basada en gRPC y no a través de MRCP, lo que hace que esta actualización sea cara y lleve mucho tiempo. Debido a esto, los clientes tendrían que actualizar no solo su ASR, sino también toda la plataforma IVR. Esto se debe a que la mayoría de las plataformas IVR heredadas no son compatibles con gRPC. Esto también podría implicar la migración de la lógica de flujo de llamadas existente, que probablemente esté escrita en un estudio de aplicaciones VoiceXML o en una herramienta de compilación y generada como páginas VoiceXML.

Todos estos pasos hacen que el proceso de actualización sea muy complicado. Aunque existen argumentos de peso a favor de la actualización a un ASR basado en el aprendizaje profundo para dar soporte a las interacciones conversacionales (mejores tasas de automatización y una experiencia de usuario más natural), es fundamental para los clientes que esta actualización/migración se realice en los plazos del cliente y no bajo la presión del reloj del proveedor.

Voicegain como sustituto de Nuance ASR en el futuro

Voicegain ofrece un reemplazo directo para el ASR basado en gramática de Nuance. Somos los únicos ASR modernos del mercado basados en redes neuronales (deep-learning/AI) que admiten de forma nativa tanto gramáticas del habla tradicionales (grxml, SRGS) como interacciones conversacionales de gran vocabulario. También somos uno de los pocos proveedores de ASR a los que se puede acceder tanto a través de un protocolo tradicional basado en telefonía como MRCP como a través de un método moderno basado en web como web-sockets (o gRPC). De este modo, el mismo modelo de red neuronal admite tanto los protocolos antiguos como los nuevos. Esto le permite disponer de un método preparado para el futuro para sustituir el ASR de Nuance con el mínimo esfuerzo y, al mismo tiempo, salvaguardar esta inversión a largo plazo.

Net-net, con sólo "apuntar" el recurso ASR en la plataforma VoiceXML a la dirección IP del Voicegain MRCP ASR en su red, puede reemplazar todo el Nuance ASR con el Voicegain ASR. Los clientes no necesitarían ni siquiera cambiar o modificar una sola línea de código de la lógica de la aplicación de voz-IVR.

En otras palabras, un cliente puede conservar la configuración de telefonía/IVR existente y simplemente realizar una "sustitución directa" de Nuance MRCP ASR por Voicegain MRCP ASR.

A largo plazo, el mismo ASR de Voicegain puede realizar transcripciones de gran vocabulario porque es un ASR basado en una red neuronal; así que cuando el cliente esté preparado para sustituir el IVR de voz de diálogo dirigido por una interacción conversacional, la plataforma Voicegain ya lo soportará.

Empiece gratis hoy mismo

Para discutir su situación de actualización con más detalle, por favor póngase en contacto con nosotros por correo electrónico a sales@voicegain.ai.We puede responder a cualquier pregunta que tenga. También puedes empezar con una cuenta de desarrollador gratuita siguiendo estas instrucciones. No se requiere tarjeta de crédito y ofrecemos 1500 horas de uso gratuito. Aquí tienes un enlace a las instrucciones; después de registrarte, ponte en contacto con nosotros en support@voicegain.aiandpara solicitar acceso a MRCP.

‍

* Nuance ASR y Nuance Krypton son marcas comerciales de Nuance, Inc que ahora forma parte de Microsoft. Por favor, confirme el anuncio de fin de vida y la capacidad del protocolo directamente con la empresa. Nuestra información en esta entrada de blog es anecdótica y no ha sido verificada con Nuance.