MRCP ASR

Visite nuestro blog para obtener información, puntos de referencia, ejemplos de código y mucho más.

Blog de Voicegain

ASR

Voicegain: Un sustituto sin fisuras para el ASR basado en la gramática de Nuance

Por

Arun Santhebennur

2 minutos

min leer

Esta entrada de blog está dirigida a cualquier persona responsable de la actualización/migración de un ASR de Nuance basado en MRCP próximo al EOL (End of Life). Pueden explorar cómo Voicegain ASR simplifica y prolonga económicamente la vida de las plataformas de voz-IVR existentes. Sirve como sustituto inmediato del ASR de Nuance basado en gramática.

Nuance ASR llega al final de su vida útil

Existen varios cientos (si no miles) de IVR basados en telefonía y habilitados para voz que actúan como "puerta de entrada" para todas las llamadas telefónicas de atención al cliente de empresas de todos los tamaños. Estos IVR de voz se basan en plataformas como Genesys Voice Portal (GVP), Genesys Engage, Avaya Aura Experience Portal (AAEP)/Avaya Voice Portal , Cisco Voice Portal (CVP), Aspect o la plataforma Voxeo ProphecyVoiceXML y otras soluciones IVR basadas en VoiceXML. Los sistemas utilizan principalmente Nuance ASR como motor de reconocimiento de voz.

A diferencia de los motores ASR/STT contemporáneos basados en redes neuronales de gran vocabulario, el ASR tradicional de Nuance es un ASR basado en gramática. Utiliza el protocolo MRCP para comunicarse con plataformas IVR basadas en VoiceXML. La mayoría de estos sistemas se adquirieron en las dos últimas décadas (2000 y 2010). Los clientes solían pagar una licencia perpetua basada en puertos (las plataformas IVR también tenían una licencia similar). La mayoría de las empresas tienen contratos de mantenimiento de software/AMC para el ASR de Nuance y esto generalmente se incluye junto con la plataforma IVR. Las versiones de Nuance Recognizer en el mercado varían entre 9.0 y 11.0. En junio de 2022, Nuance había anunciado el fin del soporte para Nuance 10.0. Tenemos entendido, al hablar con los clientes, que la última versión de Nuance vendida, Nuance 11.0 Recognizer, llegará al final de su vida útil o al final de su capacidad de pedido en algún momento de ^2025*.

La ruta de actualización de Nuance es todo un reto

Además, al hablar con los clientes, hemos entendido que los clientes que actualmente tienen licencia para el ASR de Nuance basado en gramática MRCP tendrían que actualizarse al motor Krypton de Nuance, el nuevo ASR basado en aprendizaje profundo en 2025. Solo se puede acceder a Nuance Krypton utilizando la moderna API basada en gRPC y no a través de MRCP, lo que hace que esta actualización sea cara y lleve mucho tiempo. Debido a esto, los clientes tendrían que actualizar no solo su ASR, sino también toda la plataforma IVR. Esto se debe a que la mayoría de las plataformas IVR heredadas no son compatibles con gRPC. Esto también podría implicar la migración de la lógica de flujo de llamadas existente, que probablemente esté escrita en un estudio de aplicaciones VoiceXML o en una herramienta de compilación y generada como páginas VoiceXML.

Todos estos pasos hacen que el proceso de actualización sea muy complicado. Aunque existen argumentos de peso a favor de la actualización a un ASR basado en el aprendizaje profundo para dar soporte a las interacciones conversacionales (mejores tasas de automatización y una experiencia de usuario más natural), es fundamental para los clientes que esta actualización/migración se realice en los plazos del cliente y no bajo la presión del reloj del proveedor.

Voicegain como sustituto de Nuance ASR en el futuro

Voicegain ofrece un reemplazo directo para el ASR basado en gramática de Nuance. Somos los únicos ASR modernos del mercado basados en redes neuronales (deep-learning/AI) que admiten de forma nativa tanto gramáticas del habla tradicionales (grxml, SRGS) como interacciones conversacionales de gran vocabulario. También somos uno de los pocos proveedores de ASR a los que se puede acceder tanto a través de un protocolo tradicional basado en telefonía como MRCP como a través de un método moderno basado en web como web-sockets (o gRPC). De este modo, el mismo modelo de red neuronal admite tanto los protocolos antiguos como los nuevos. Esto le permite disponer de un método preparado para el futuro para sustituir el ASR de Nuance con el mínimo esfuerzo y, al mismo tiempo, salvaguardar esta inversión a largo plazo.

Net-net, con sólo "apuntar" el recurso ASR en la plataforma VoiceXML a la dirección IP del Voicegain MRCP ASR en su red, puede reemplazar todo el Nuance ASR con el Voicegain ASR. Los clientes no necesitarían ni siquiera cambiar o modificar una sola línea de código de la lógica de la aplicación de voz-IVR.

En otras palabras, un cliente puede conservar la configuración de telefonía/IVR existente y simplemente realizar una "sustitución directa" de Nuance MRCP ASR por Voicegain MRCP ASR.

A largo plazo, el mismo ASR de Voicegain puede realizar transcripciones de gran vocabulario porque es un ASR basado en una red neuronal; así que cuando el cliente esté preparado para sustituir el IVR de voz de diálogo dirigido por una interacción conversacional, la plataforma Voicegain ya lo soportará.

Empiece gratis hoy mismo

Para discutir su situación de actualización con más detalle, por favor póngase en contacto con nosotros por correo electrónico a sales@voicegain.ai.We puede responder a cualquier pregunta que tenga. También puedes empezar con una cuenta de desarrollador gratuita siguiendo estas instrucciones. No se requiere tarjeta de crédito y ofrecemos 1500 horas de uso gratuito. Aquí tienes un enlace a las instrucciones; después de registrarte, ponte en contacto con nosotros en support@voicegain.aiandpara solicitar acceso a MRCP.

‍

* Nuance ASR y Nuance Krypton son marcas comerciales de Nuance, Inc que ahora forma parte de Microsoft. Por favor, confirme el anuncio de fin de vida y la capacidad del protocolo directamente con la empresa. Nuestra información en esta entrada de blog es anecdótica y no ha sido verificada con Nuance.

Leer más →

Bot de voz

Modernice su IVR VoiceXML y conviértalo en robots de voz conversacionales

Por

Arun Santhebennur

min leer

Necesidad urgente de modernizar la plataforma IVR

La mayoría de las organizaciones de TI empresariales cuentan con aplicaciones IVR basadas en telefonía madura que sirven de "puerta de entrada" para todas las llamadas de atención al cliente basadas en voz. Estas aplicaciones utilizan una combinación de tonos (DTMF) y voz para interactuar con las personas que llaman. Han sido cuidadosamente diseñadas, desarrolladas y puestas a punto a lo largo de los años.

Los objetivos de cualquier IVR son dos: 1) Automatizar consultas rutinarias sencillas (como consulta de saldo, estado de pago, etc.) y 2) Autenticar y dirigir de forma inteligente las llamadas que requieren asistencia en directo al agente adecuado.

Las organizaciones de TI de sectores verticales como los servicios financieros, los viajes, los medios de comunicación, las telecomunicaciones, el comercio minorista o la sanidad cuentan con una pequeña plantilla de desarrolladores de IVR internos o subcontratados para mantener estas aplicaciones. Mientras que las empresas se han centrado en ampliar y actualizar sus canales de asistencia digital (como el chat y el correo electrónico), las aplicaciones IVR han permanecido prácticamente intactas durante años.

A medida que los CIO y los CDO (Chief Digital Officers) se embarcan en iniciativas estratégicas para migrar las cargas de trabajo empresariales a la nube, una carga de trabajo "nicho" en esta lista es el IVR. Sin embargo, migrar IVR "tal cual" a la nube es complicado. Los lenguajes, protocolos y plataformas sobre los que se construyeron estos IVR basados en telefonía datan de principios de la década de 2000 y se acercan a la obsolescencia. Además, aunque admiten diálogos dirigidos con un número limitado de expresiones habladas del cliente, no se adaptan bien a las interacciones conversacionales con bots.

Así que las organizaciones de TI se enfrentan a un dilema. Por un lado, resulta engorroso mantener estas cargas de trabajo IVR. Por otro lado, la lógica de migrar las plataformas existentes "tal cual" a una infraestructura moderna en la nube es cuestionable. ¿Por qué soportar las molestias y los gastos si los IVR van a ser sustituidos por bots conversacionales?

Por tanto, existe una necesidad real de modernizar estos IVR como parte de su estrategia de migración a la nube.

Un breve vistazo a la infraestructura subyacente de estas aplicaciones IVR

‍

Tradicionalmente, las aplicaciones IVR de voz se ejecutaban en plataformas de telefonía de Contact Center locales. Empresas como Avaya, Nortel, Cisco, Intervoice, Genesys y Aspect dominaban el panorama de proveedores. A principios y mediados de la década de 2000, estos proveedores colaboraron en el consorcio W3C para desarrollar VoiceXML, un lenguaje abierto e independiente del proveedor para aplicaciones IVR de voz.

VoiceXML permitió a los desarrolladores crear diálogos de voz interactivos y proporcionó una forma estándar de interactuar con un reconocedor automático del habla (ASR). Para ello se utilizaba un protocolo basado en telefonía denominado MRCP. El estándar también proporcionaba un método para definir gramáticas del habla llamado SRGS y un formato llamado GRXML.

La arquitectura y la jerga/terminología en torno a VoiceXML se inspiraron en gran medida en el mundo web. Se hacía referencia a la plataforma VoiceXML como un "navegador de voz" que podía "renderizar páginas VoiceXML" del mismo modo que un navegador web podía renderizar páginas HTML. La mayoría de las plataformas de contact center ofrecían IDE visuales para ayudar a crear y mantener estos flujos de llamadas interactivos. Algunas también automatizaban la generación de las páginas VoiceXML. El IDE generaba código que podía ejecutarse en un servidor de aplicaciones (como Apache Tomcat) que, a su vez, generaba páginas VoiceXML que se enviaban a una plataforma VoiceXML a través de HTTP estándar. El servidor de aplicaciones también se encargaba de realizar solicitudes de servicios web a los recursos de bases de datos empresariales necesarios para la interacción IVR; por ejemplo, sistemas de facturación/pago o sistemas CRM.

Además, la mayoría de los ASR de finales de los 90 y principios de los 2000 se basaban en modelos de Markov ocultos y modelos de mezclas gaussianas. Se basaban principalmente en el reconocimiento gramatical, lo que significaba que, como desarrollador de sistemas IVR de voz, había que anticipar todas las posibles expresiones que un usuario podría decir en respuesta a una pregunta. Había algunas opciones para crear modelos de lenguaje estadísticos abiertos, pero eran complicados y requerían una cuidadosa selección del corpus de entrenamiento.

¿Por qué modernizar ahora?

‍AunqueVoiceXML funcionó bien en el pasado, es un lenguaje de nicho y anticuado. La última versión de VoiceXML 2.1 data de 2007. Es decir, hace más de una década.

Y mucho ha cambiado el mundo de la web desde entonces. VoiceXML se desarrolló en una época en la que JSP (Java Server Pages) estaba muy extendido. Es decir, antes de JSON, YAML, las API RESTful y AJAX.

Para las empresas, resulta caro mantener un personal especializado, ya sea interno o subcontratado, con conocimientos especializados en tecnologías como VoiceXML y MRCP.

Lo ideal sería que las empresas pudieran ejecutar aplicaciones IVR como cualquier otra aplicación web moderna. La mayoría de las aplicaciones web empresariales se basan en lenguajes de programación como Python o Node.JS, muy populares entre los desarrolladores web. Se almacenan en contenedores mediante Docker y se orquestan mediante Kubernetes.

Lo ideal para una organización de TI empresarial sería que su aplicación IVR se construyera en lenguajes de programación similares, de modo que pueda recibir soporte o mantenimiento al igual que otras aplicaciones de la cartera de TI.

Además de la obsolescencia de VoiceXML, el motor de reconocimiento de voz (ASR) que se desplegó a principios de la década de 2000 también se ha quedado obsoleto. Los motores modernos de conversión de voz a texto se basan en redes neuronales profundas que se ejecutan en potentes infraestructuras de GPU. Ofrecen una precisión asombrosa y permiten el uso de un vocabulario muy amplio, que es lo que se necesita para una experiencia conversacional similar a la de un bot. Además, los motores NLU modernos permiten extraer fácilmente las intenciones del texto transcrito.

Por tanto, si una empresa quiere ofrecer un bot de voz que admita una experiencia conversacional abierta, necesita pasar a una plataforma moderna de conversión de voz a texto basada en DNN que pueda integrarse con dichos motores NLU.

Nuestra receta para modernizar las aplicaciones IVR

En Voicegain, recomendamos que una empresa modernice primero la infraestructura subyacente conservando la lógica de la aplicación IVR existente. Este es un gran primer paso. Permite a la empresa seguir prestando servicio a los usuarios existentes y, al mismo tiempo, dar un paso hacia una experiencia de usuario más conversacional.

¿Cómo puede una empresa modernizar su antigua aplicación IVR?

Sugerimos que la lógica de flujo de llamadas existente, que normalmente se mantiene utilizando IDE visuales de plataformas de centros de contacto, se reescriba (idealmente con la ayuda de herramientas automatizadas) en un lenguaje de programación moderno como Python o Node.Js.

En lugar de generar páginas VoiceXML heredadas, las empresas deberían utilizar lenguajes de representación de datos fáciles de usar en la web, como JSON o YAML, para interactuar con las modernas API de voz a texto RESTful mediante callbacks web.

¿Cómo apoya Voicegain la modernización de las aplicaciones IVR?

En Voicegain, proporcionamos una moderna plataforma Voice AI que incluye

Un moderno reconocedor de voz basado en DNN accesible mediante API RESTful
Capacidad para interactuar directamente con llamadas telefónicas realizadas a través de SIP/RTP
API de devolución de llamada de estilo JSON para sustituir la funcionalidad de un VoiceXML
Posibilidad de desplegar en su VPC/nube privada o utilizar como servicio en la nube.
Totalmente compatible con los estándares heredados (gramáticas SRGS, universales)
Entrenamiento del modelo acústico subyacente y de los modelos lingüísticos para obtener una alta precisión de reconocimiento.

Voicegain está desarrollando herramientas para convertir automáticamente VoiceXML en una representación JSON/YAML equivalente que hable con nuestras API de devolución de llamada.

¿Cómo puede ser ésta una arquitectura "a prueba de futuro" para una empresa?

La plataforma Voicegain es capaz de transcribir un amplio vocabulario, requisito indispensable para los robots de voz basados en NLU. Esta será la forma en que los clientes interactuarán con las empresas en el futuro.

Permitimos a los desarrolladores alternar entre el reconocimiento basado en la gramática y el reconocimiento de grandes vocabularios en todos y cada uno de los giros del diálogo; o bien puede utilizar ambos simultáneamente para lograr una mayor flexibilidad.

Nuestras API de bots de telefonía también pueden integrarse con marcos de bots como Google Dialog Flow, .

Invitamos a los desarrolladores web de empresas a una prueba gratuita de nuestra plataforma.