Conozca a Casey, el asistente de voz con IA generativa de Voicegain. Casey entabla una conversación natural con sus interlocutores, sustituyendo a su antiguo IVR. Para las llamadas que requieren asistencia humana, Casey transfiere la llamada y se convierte en un copiloto de IA en tiempo real para guiar a los agentes de su centro de llamadas.
La IA generativa está trastornando el servicio de atención al cliente. Los grandes modelos lingüísticos pueden comprender y mantener conversaciones humanas a gran escala. Voicegain puede ayudarle a implementar un asistente de voz basado en IA Generativa que puede sustituir a los IVR tradicionales basados en árboles y actuar como un entrenador de IA para el personal de primera línea de su centro de llamadas.
Voicegain cuenta con su propio ASR basado en aprendizaje profundo, altamente preciso y optimizado, que se integra con los LLM para atraer a las personas que llaman y ayudar a los agentes. Dado que Voicegain es propietaria de este ASR, se puede ajustar y entrenar en función del vocabulario del cliente. Una entrada mal reconocida en un modelo de lenguaje de gran tamaño dará lugar a una mala experiencia del llamante.
Los fundadores de Voicegain construyeron y gestionaron IVRs de voz para grandes empresas como Charter y Comcast durante más de 15 años. Después de haber automatizado millones de llamadas, tenemos un profundo conocimiento de la creación de interfaces de usuario de voz amigables y eficientes y lo que se necesita para ofrecer la automatización en el mundo real.
La infraestructura de telefonía segura de Voicegain admite la integración directa de VoIP con operadores SIP y plataformas/sistemas telefónicos CCaaS. Nuestra plataforma puede grabar, transcribir y supervisar todo el ciclo de vida de la interacción con el llamante, desde el IVR inicial hasta que el agente cuelga.
Voicegain licencia su plataforma Voice AI en función del número de segmentos automatizados de una conversación. Esto proporciona un claro retorno de la inversión a nuestros clientes. Por ejemplo, la validación de un cliente es un segmento.
Voicegain trabaja con su operador SIP para configurar todo su tráfico gratuito para que termine en SIP URIs o DIDs específicos de país proporcionados por Voicegain. En otras palabras, Voicegain se convierte en el IVR front-end para todas sus llamadas de atención al cliente.
Casey, el asistente de voz basado en IA generativa de Voicegain, recibirá a sus clientes y entablará con ellos una conversación natural. Sus clientes pueden hablar con frases completas. Los modelos de IA de Casey están entrenados a partir de conversaciones anteriores y artículos de la base de conocimientos.
Casey puede (1) responder a una pregunta rutinaria y finalizar la llamada o (2) transferir la llamada a una cola específica de su centro de llamadas para obtener más ayuda. Voicegain se integra con las principales plataformas de Contact Center, tanto en la nube como locales.
Cuando un Agente recibe una llamada, se le presenta un resumen de los datos recopilados por Casey y, a partir de ahí, puede continuar la conversación desde donde Casey la dejó. Casey permanece en la llamada y guía a los Agentes en tiempo real. Esto reduce el AHT en su centro de contacto.
Hoy nos complace anunciar el lanzamiento de Voicegain Whisper, una versión optimizada del modelo de reconocimiento de voz/ASR Whisper de Open AI que se ejecuta en la infraestructura en la nube gestionada por Voicegain y a la que se puede acceder mediante las API de Voicegain. Los desarrolladores pueden utilizar las mismas API e infraestructuras sólidas y bien documentadas que procesan más de 60 millones de minutos de audio cada mes para empresas líderes como Samsung, Aetna y otras startups innovadoras como Level.AI, Onvisource y DataOrb.
La API Whisper de Voicegain es una robusta y asequible API de conversión de voz a texto por lotes para desarrolladores que buscan integrar transcripciones de conversaciones con LLMs como GPT 3.5 y 4 (de Open AI) PaLM2 (de Google), Claude (de Anthropic), LLAMA 2 (Open Source de Meta), y sus propios LLMs privados para potenciar aplicaciones de IA generativa. Open AI ha publicado varias versiones de los modelos Whisper en código abierto. Con el lanzamiento de hoy, Voicegain soporta Whisper-medium, Whisper-small y Whisper-base. Voicegain admite ahora la transcripción en varios idiomas compatibles con Whisper.
Aquí tiene un enlace a nuestra página de productos
Hay cuatro razones principales para que los desarrolladores utilicen Voicegain Whisper en lugar de otras ofertas:
Aunque los desarrolladores pueden utilizar Voicegain Whisper en nuestra oferta de nube multiusuario, un gran diferenciador de Voicegain es nuestra compatibilidad con Edge. La plataforma Voicegain ha sido diseñada para la nube privada de un solo inquilino y el despliegue en centros de datos. Además del modelo central de voz a texto basado en el aprendizaje profundo, nuestra plataforma incluye nuestros servicios de API REST, sistemas de registro y supervisión, autoescalado y gestión de tareas y colas fuera de línea. En la actualidad, las mismas API permiten a Voicegain procesar más de 60 millones de minutos al mes. Podemos aportar esta experiencia práctica del mundo real de ejecutar modelos de IA a escala a nuestra comunidad de desarrolladores.
Dado que la plataforma Voicegain se despliega en clústeres Kubernetes, es muy adecuada para empresas modernas de productos SaaS de IA y empresas innovadoras que quieran integrarse con sus LLM privados.
En Voicegain, hemos optimizado Whisper para obtener un mayor rendimiento. Como resultado, podemos ofrecer acceso al modelo Whisper a un precio un 40% inferior al que ofrece Open AI.
Voicegain también ofrece funciones críticas para centros de contacto y reuniones. Nuestras API admiten audio estéreo de dos canales, algo habitual en los sistemas de grabación de los centros de contacto. Las marcas de tiempo a nivel de palabra es otra característica importante que ofrece nuestra API y que es necesaria para asignar audio a texto. Hay otra característica que tenemos para los modelos Voicegain - modelos de diarización mejorados - que es una característica necesaria para los casos de uso de los centros de contacto y reuniones - pronto estará disponible en Whisper.
También ofrecemos asistencia premium y SLA de tiempo de actividad para nuestra oferta de nube multiusuario. En la actualidad, estas API procesan más de 60 millones de minutos de audio al mes para nuestros clientes empresariales y startups.
OpenAI Whisper es un sistema de reconocimiento automático del habla (ASR) de código abierto entrenado con 680.000 horas de datos supervisados multilingües y multitarea recogidos de la web. La arquitectura del modelo se basa en el sistema de transformadores codificador-decodificador y ha mostrado una mejora significativa del rendimiento en comparación con modelos anteriores porque se ha entrenado en varias tareas de procesamiento del habla, como el reconocimiento del habla multilingüe, la traducción del habla, la identificación del lenguaje hablado y la detección de la actividad de la voz.
Obtenga más información sobre Voicegain Whisper haciendo clic aquí. Cualquier desarrollador, ya sea una startup unipersonal o una gran empresa, puede acceder al modelo Voicegain Whisper registrándose para obtener una cuenta de desarrollador gratuita. Le ofrecemos 15.000 minutos de créditos gratuitos si se registra hoy mismo.
Hay dos formas de probar Voicegain Whisper. Se describen aquí. Si desea más información o tiene alguna pregunta, envíenos un correo electrónico a support@voicegain.ai
El 1 de marzo de 2023, Open AI anunció que los desarrolladores podrían acceder al modelo de voz a texto Whisper de Open AI a través de API REST fáciles de usar. OpenAI también publicó API para GPT3.5, el LLM que está detrás del popular producto ChatGPT. La disponibilidad general de la próxima versión de LLM, GPT 4, está prevista para julio de 2023.
Desde el lanzamiento inicial de Open AI Whisper en octubre de 2022, ha sido un gran atractivo para los desarrolladores. Un ASR de código abierto de alta precisión es extremadamente atractivo. Whisper de OpenAI ha sido entrenado con 680.000 horas de datos de audio, que es mucho más de lo que se entrena a la mayoría de los modelos. Aquí hay un enlace a su github.
Sin embargo, la comunidad de desarrolladores que quiere aprovechar Whisper se enfrenta a tres grandes limitaciones:
1. Costes de infraestructura: La ejecución de Whisper -especialmente los modelos grandes y medianos- requiere costosas opciones de computación basadas en GPU con uso intensivo de memoria (véase más adelante).
2. Experiencia interna en IA: Para utilizar el modelo Whisper de Open AI, una empresa tiene que invertir en la creación de un equipo interno de ingeniería de inteligencia artificial capaz de utilizar, optimizar y dar soporte a Whisper en un entorno de producción. Aunque Whisper ofrece funciones básicas como la conversión de voz a texto, la identificación de idiomas, la puntuación y el formateo, aún faltan algunas funciones de IA, como la diarización de hablantes y la redacción de PII, que tendrían que desarrollarse. Además, las empresas tendrían que poner en marcha un NOC en tiempo real para la asistencia continua. Incluso un equipo de desarrolladores de 2-3 personas a pequeña escala podría ser caro de contratar y mantener, a menos que los volúmenes de llamadas justifiquen tal inversión. Este equipo interno también tiene que asumir toda la responsabilidad de las tareas relacionadas con la infraestructura en la nube, como el autoescalado y la supervisión de registros para garantizar el tiempo de actividad.
3. Falta de compatibilidad con el tiempo real: Whisper es un modelo de voz a texto por lotes. Los desarrolladores que necesiten modelos de voz a texto en tiempo real deberán evaluar otras opciones de ASR/STT.
Al asumir ahora la responsabilidad de alojar este modelo y hacerlo accesible a través de API fáciles de usar, tanto Open AI como Voicegain abordan las dos primeras limitaciones.
Actualización de agosto de 2023: El 5 de agosto de 2023, Voicegain anunció el lanzamiento de Voicegain Whisper, una versión optimizada de Whisper de Open AI que utiliza las API de Voicegain. Aquí hay un enlace al anuncio. Además de Voicegain Whisper, Voicegain también ofrece Speech-to-Text en tiempo real/streaming y otras funciones como soporte de dos canales/estéreo (necesario para centros de llamadas), diarización del hablante y redacción de PII. Todo esto se ofrece en la infraestructura de Voicegain que cumple con las normas PCI y SOC-2.
Este artículo destaca algunas de las principales ventajas y limitaciones del uso de Whisper, ya sea utilizando las API de Open AI, las API de Voicegain o alojándolo por su cuenta.
En nuestras pruebas de referencia, los modelos Whisper de OpenAI demostraron una gran precisión en una amplia gama de conjuntos de datos de audio. Nuestros ingenieros de ML llegaron a la conclusión de que los modelos Whisper funcionan bien en conjuntos de datos de audio que van desde reuniones, podcasts, clases teóricas, vídeos de YouTube y audio de centros de llamadas. Hemos comparado Whisper-base, Whisper-small y Whisper-medium con algunos de los mejores motores ASR/Speech-to-Text del mercado.
La tasa media de error de palabra (WER) de Whisper-medium fue del 11,46% para el audio de reuniones y del 17,7% para el audio de centros de llamadas. De hecho, era inferior a las WER de las ofertas de STT de otras grandes empresas como Microsoft Azure y Google. Descubrimos que AWS Transcribe tenía una WER competitiva con Whisper.
He aquí una observación interesante: es posible superar la precisión de reconocimiento de Whisper, pero para ello habría que crear modelos personalizados. Los modelos personalizados son modelos que se entrenan con los datos de audio específicos de nuestros clientes. De hecho, para el audio de centros de llamadas, nuestros ingenieros de ML pudieron demostrar que nuestros modelos de voz a texto específicos para centros de llamadas eran iguales o incluso mejores que algunos de los modelos de Whisper. Esto tiene un sentido intuitivo porque el audio de los locutorios no está fácilmente disponible en Internet para que Open AI pueda acceder a él.
Póngase en contacto con nosotros por correo electrónico (support@voicegain.ai) si desea revisar y validar/probar estas referencias de precisión.
El precio de Whisper, de 0,006 $/min (0,36 $/hora), es muy inferior al de las ofertas de voz a texto de otros grandes operadores de la nube. Esto se traduce en un descuento del 75 % con respecto a Google Speech-to-Text y AWS Transcribe (según los precios vigentes en la fecha de este artículo).
Actualización de agosto de 2023: En el lanzamiento de Voicegain Whisper, Voicegain anunció un precio de lista de 0,0037 $/min (0,225 $/hora). Este precio es un 37,5% inferior al de Open AI y se ha conseguido desde que optimizamos el rendimiento de Whisper. Para probarlo, regístrese para obtener una cuenta de desarrollador gratuita. Encontrará las instrucciones aquí.
Lo que también fue significativo fue que Open AI anunció el lanzamiento de las API ChatGPT con el lanzamiento de las API Whisper. Los desarrolladores pueden combinar la potencia de los modelos Whisper Speech-to-Text con los LLM GPT 3.5 y GPT 4.0 (el modelo subyacente que utiliza ChatGPT) para potenciar aplicaciones de IA conversacional muy interesantes. Sin embargo, aquí hay una consideración importante: el uso de la API Whisper con LLM como ChatGPT funciona siempre y cuando la aplicación sólo utilice audio pregrabado/por lotes (por ejemplo, analizar la grabación de conversaciones de call center para QA o Compliance o transcribir y extraer reuniones de Zoom para recordar el contexto). Los desarrolladores que deseen crear bots de voz o IVR de voz necesitarán un buen modelo de conversión de voz a texto en tiempo real.
Como se ha indicado anteriormente, Whisper de Open AI no es compatible con aplicaciones que requieran transcripción en tiempo real/en tiempo real, lo que podría ser relevante para una amplia variedad de aplicaciones de IA dirigidas a centros de llamadas, educación, casos de uso legal y reuniones. Si está buscando un proveedor de API de transmisión de voz a texto, no dude en ponerse en contacto con nosotros a través de la dirección de correo electrónico que se indica a continuación
El rendimiento de los modelos Whisper -tanto para los modelos medianos como para los grandes- es relativamente bajo. En Voicegain, nuestros ingenieros de ML han probado el rendimiento de los modelos Whisper en varias instancias de cálculo populares basadas en GPU NVIDIA disponibles en nubes públicas (AWS, GCP, Microsoft Azure y Oracle Cloud). También tenemos experiencia en la vida real porque procesamos más de 10 millones de horas de audio al año. Como resultado, tenemos un sólido conocimiento de lo que se necesita para ejecutar un modelo como Whisper de OpenAI en un entorno de producción.
Hemos descubierto que el coste de infraestructura de Whisper-medium en un entorno de nube oscila entre 0,07 y 0,10 dólares por hora. Puede ponerse en contacto con nosotros por correo electrónico para obtener información detallada sobre los supuestos y el respaldo de nuestro modelo de costes. Un factor importante a tener en cuenta es que en un entorno de producción de un solo inquilino, la infraestructura informática no puede funcionar a un nivel de utilización muy alto. El rendimiento máximo necesario para soportar el tráfico de la vida real puede ser varias veces (2-3x) el rendimiento medio. En términos netos, determinamos que, aunque los desarrolladores no tendrían que pagar por las licencias de software, los costes de infraestructura de la nube seguirían siendo sustanciales.
Además de este coste de infraestructura, el mayor gasto de ejecutar Whisper on the Edge (On-Premise + Private Cloud) es que requeriría un equipo back-end dedicado de ingeniería y desarrollo que pueda dividir la grabación de audio en segmentos que puedan enviarse a Whisper y realizar la gestión de colas. Este equipo también tendría que supervisar todas las necesidades de cumplimiento y seguridad de la información (por ejemplo, ejecutar análisis de vulnerabilidades, detección de intrusiones, etc.).
A fecha de publicación de este post, Whisper no dispone de una API de audio multicanal. Por lo tanto, si su aplicación incluye audio con varios altavoces, el precio efectivo por minuto de Whisper = Número de canales * 0,006. Tanto para reuniones como para casos de uso en centros de llamadas, este precio puede llegar a ser prohibitivo.
A esta versión de Whisper le faltan algunas características clave que los desarrolladores necesitarían. Las tres más importantes son la diarización (separación de hablantes), las marcas de tiempo y la redacción de PII.
Voicegain está trabajando en el lanzamiento de un modelo Voicegain-Whisper sobre sus API. Con él, los desarrolladores podrán beneficiarse de la infraestructura Voicegain compatible con PCI/SOC-2 y de funciones avanzadas como diarización, redacción de PII, conformidad con PCI y sellos de tiempo. Para inscribirse en la lista de espera, envíenos un correo electrónico a sales@voicegain.ai
En Voicegain, creamos modelos Speech-to-Text/ASR basados en aprendizaje profundo que igualan o superan la precisión de los modelos STT de los grandes actores. Desde hace más de 4 años, clientes de startups y empresas han utilizado nuestras API para crear y lanzar productos de éxito que procesan más de 600 millones de minutos al año. Nos centramos en desarrolladores que necesitan una gran precisión (conseguida mediante el entrenamiento de modelos acústicos personalizados) y un despliegue en infraestructuras privadas a un precio asequible. Ofrecemos un acuerdo de nivel de servicio en el que garantizamos que un modelo personalizado entrenado con sus datos será tan preciso o más que las opciones más populares, incluido Whisper de Open AI.
También tenemos modelos entrenados específicamente para el audio de los centros de llamadas. Aunque Whisper es un digno competidor (por supuesto, una empresa mucho mayor con 100 veces más recursos que nosotros), como desarrolladores acogemos con satisfacción la innovación que Open AI está desencadenando en este mercado. Al añadir las API de ChatGPT a nuestra función de voz a texto, tenemos previsto ampliar nuestra oferta de API a la comunidad de desarrolladores.
Para obtener una cuenta de desarrollador en Voicegain con créditos gratuitos, haz clic aquí.