Generative Voice AI

Visite nuestro blog para obtener información, puntos de referencia y mucho más.

ASR

Lanzamiento de la API de reconocimiento de voz Voicegain Whisper ASR para desarrolladores de Gen AI

Por

Arun Santhebennur

min leer

Hoy nos complace anunciar el lanzamiento de Voicegain Whisper, una versión optimizada del modelo de reconocimiento de voz/ASR Whisper de Open AI que se ejecuta en la infraestructura en la nube gestionada por Voicegain y a la que se puede acceder mediante las API de Voicegain. Los desarrolladores pueden utilizar las mismas API e infraestructuras sólidas y bien documentadas que procesan más de 60 millones de minutos de audio cada mes para empresas líderes como Samsung, Aetna y otras startups innovadoras como Level.AI, Onvisource y DataOrb.

La API Whisper de Voicegain es una robusta y asequible API de conversión de voz a texto por lotes para desarrolladores que buscan integrar transcripciones de conversaciones con LLMs como GPT 3.5 y 4 (de Open AI) PaLM2 (de Google), Claude (de Anthropic), LLAMA 2 (Open Source de Meta), y sus propios LLMs privados para potenciar aplicaciones de IA generativa. Open AI ha publicado varias versiones de los modelos Whisper en código abierto. Con el lanzamiento de hoy, Voicegain soporta Whisper-medium, Whisper-small y Whisper-base. Voicegain admite ahora la transcripción en varios idiomas compatibles con Whisper.

‍

Aquí tiene un enlace a nuestra página de productos

‍
Hay cuatro razones principales para que los desarrolladores utilicen Voicegain Whisper en lugar de otras ofertas:

1. Compatibilidad con el despliegue en nube privada/en las instalaciones (integración con LLM privados).

Aunque los desarrolladores pueden utilizar Voicegain Whisper en nuestra oferta de nube multiusuario, un gran diferenciador de Voicegain es nuestra compatibilidad con Edge. La plataforma Voicegain ha sido diseñada para la nube privada de un solo inquilino y el despliegue en centros de datos. Además del modelo central de voz a texto basado en el aprendizaje profundo, nuestra plataforma incluye nuestros servicios de API REST, sistemas de registro y supervisión, autoescalado y gestión de tareas y colas fuera de línea. En la actualidad, las mismas API permiten a Voicegain procesar más de 60 millones de minutos al mes. Podemos aportar esta experiencia práctica del mundo real de ejecutar modelos de IA a escala a nuestra comunidad de desarrolladores.

Dado que la plataforma Voicegain se despliega en clústeres Kubernetes, es muy adecuada para empresas modernas de productos SaaS de IA y empresas innovadoras que quieran integrarse con sus LLM privados.

2. Precios asequibles: un 40% menos que Open AI

En Voicegain, hemos optimizado Whisper para obtener un mayor rendimiento. Como resultado, podemos ofrecer acceso al modelo Whisper a un precio un 40% inferior al que ofrece Open AI.

3. Funciones mejoradas para centros de contacto y reuniones.

Voicegain también ofrece funciones críticas para centros de contacto y reuniones. Nuestras API admiten audio estéreo de dos canales, algo habitual en los sistemas de grabación de los centros de contacto. Las marcas de tiempo a nivel de palabra es otra característica importante que ofrece nuestra API y que es necesaria para asignar audio a texto. Hay otra característica que tenemos para los modelos Voicegain - modelos de diarización mejorados - que es una característica necesaria para los casos de uso de los centros de contacto y reuniones - pronto estará disponible en Whisper.

4. Soporte Premium y SLA de tiempo de actividad.

También ofrecemos asistencia premium y SLA de tiempo de actividad para nuestra oferta de nube multiusuario. En la actualidad, estas API procesan más de 60 millones de minutos de audio al mes para nuestros clientes empresariales y startups.

‍

Acerca del modelo OpenAI-Whisper

OpenAI Whisper es un sistema de reconocimiento automático del habla (ASR) de código abierto entrenado con 680.000 horas de datos supervisados multilingües y multitarea recogidos de la web. La arquitectura del modelo se basa en el sistema de transformadores codificador-decodificador y ha mostrado una mejora significativa del rendimiento en comparación con modelos anteriores porque se ha entrenado en varias tareas de procesamiento del habla, como el reconocimiento del habla multilingüe, la traducción del habla, la identificación del lenguaje hablado y la detección de la actividad de la voz.

Arquitectura del transformador codificador-decodificador del modelo OpenAI Whisper

Fuente

Primeros pasos con Voicegain Whisper

Obtenga más información sobre Voicegain Whisper haciendo clic aquí. Cualquier desarrollador, ya sea una startup unipersonal o una gran empresa, puede acceder al modelo Voicegain Whisper registrándose para obtener una cuenta de desarrollador gratuita. Le ofrecemos 15.000 minutos de créditos gratuitos si se registra hoy mismo.

Hay dos formas de probar Voicegain Whisper. Se describen aquí. Si desea más información o tiene alguna pregunta, envíenos un correo electrónico a support@voicegain.ai

Leer más →

ASR

Consideraciones prácticas para los desarrolladores que se planteen el Whisper ASR de OpenAI

Por

Arun Santhebennur

min leer

El 1 de marzo de 2023, Open AI anunció que los desarrolladores podrían acceder al modelo de voz a texto Whisper de Open AI a través de API REST fáciles de usar. OpenAI también publicó API para GPT3.5, el LLM que está detrás del popular producto ChatGPT. La disponibilidad general de la próxima versión de LLM, GPT 4, está prevista para julio de 2023.

Desde el lanzamiento inicial de Open AI Whisper en octubre de 2022, ha sido un gran atractivo para los desarrolladores. Un ASR de código abierto de alta precisión es extremadamente atractivo. Whisper de OpenAI ha sido entrenado con 680.000 horas de datos de audio, que es mucho más de lo que se entrena a la mayoría de los modelos. Aquí hay un enlace a su github.

Sin embargo, la comunidad de desarrolladores que quiere aprovechar Whisper se enfrenta a tres grandes limitaciones:

1. Costes de infraestructura: La ejecución de Whisper -especialmente los modelos grandes y medianos- requiere costosas opciones de computación basadas en GPU con uso intensivo de memoria (véase más adelante).

2. Experiencia interna en IA: Para utilizar el modelo Whisper de Open AI, una empresa tiene que invertir en la creación de un equipo interno de ingeniería de inteligencia artificial capaz de utilizar, optimizar y dar soporte a Whisper en un entorno de producción. Aunque Whisper ofrece funciones básicas como la conversión de voz a texto, la identificación de idiomas, la puntuación y el formateo, aún faltan algunas funciones de IA, como la diarización de hablantes y la redacción de PII, que tendrían que desarrollarse. Además, las empresas tendrían que poner en marcha un NOC en tiempo real para la asistencia continua. Incluso un equipo de desarrolladores de 2-3 personas a pequeña escala podría ser caro de contratar y mantener, a menos que los volúmenes de llamadas justifiquen tal inversión. Este equipo interno también tiene que asumir toda la responsabilidad de las tareas relacionadas con la infraestructura en la nube, como el autoescalado y la supervisión de registros para garantizar el tiempo de actividad.

3. Falta de compatibilidad con el tiempo real: Whisper es un modelo de voz a texto por lotes. Los desarrolladores que necesiten modelos de voz a texto en tiempo real deberán evaluar otras opciones de ASR/STT.

‍

Al asumir ahora la responsabilidad de alojar este modelo y hacerlo accesible a través de API fáciles de usar, tanto Open AI como Voicegain abordan las dos primeras limitaciones.

Actualización de agosto de 2023: El 5 de agosto de 2023, Voicegain anunció el lanzamiento de Voicegain Whisper, una versión optimizada de Whisper de Open AI que utiliza las API de Voicegain. Aquí hay un enlace al anuncio. Además de Voicegain Whisper, Voicegain también ofrece Speech-to-Text en tiempo real/streaming y otras funciones como soporte de dos canales/estéreo (necesario para centros de llamadas), diarización del hablante y redacción de PII. Todo esto se ofrece en la infraestructura de Voicegain que cumple con las normas PCI y SOC-2.‍

‍
Este artículo destaca algunas de las principales ventajas y limitaciones del uso de Whisper, ya sea utilizando las API de Open AI, las API de Voicegain o alojándolo por su cuenta.

Puntos fuertes

1. Precisión

En nuestras pruebas de referencia, los modelos Whisper de OpenAI demostraron una gran precisión en una amplia gama de conjuntos de datos de audio. Nuestros ingenieros de ML llegaron a la conclusión de que los modelos Whisper funcionan bien en conjuntos de datos de audio que van desde reuniones, podcasts, clases teóricas, vídeos de YouTube y audio de centros de llamadas. Hemos comparado Whisper-base, Whisper-small y Whisper-medium con algunos de los mejores motores ASR/Speech-to-Text del mercado.

La tasa media de error de palabra (WER) de Whisper-medium fue del 11,46% para el audio de reuniones y del 17,7% para el audio de centros de llamadas. De hecho, era inferior a las WER de las ofertas de STT de otras grandes empresas como Microsoft Azure y Google. Descubrimos que AWS Transcribe tenía una WER competitiva con Whisper.

He aquí una observación interesante: es posible superar la precisión de reconocimiento de Whisper, pero para ello habría que crear modelos personalizados. Los modelos personalizados son modelos que se entrenan con los datos de audio específicos de nuestros clientes. De hecho, para el audio de centros de llamadas, nuestros ingenieros de ML pudieron demostrar que nuestros modelos de voz a texto específicos para centros de llamadas eran iguales o incluso mejores que algunos de los modelos de Whisper. Esto tiene un sentido intuitivo porque el audio de los locutorios no está fácilmente disponible en Internet para que Open AI pueda acceder a él.

Póngase en contacto con nosotros por correo electrónico (support@voicegain.ai) si desea revisar y validar/probar estas referencias de precisión.

2. Asequible en comparación con las grandes empresas, pero no es la Whisper API más barata del mercado.

El precio de Whisper, de 0,006 $/min (0,36 $/hora), es muy inferior al de las ofertas de voz a texto de otros grandes operadores de la nube. Esto se traduce en un descuento del 75 % con respecto a Google Speech-to-Text y AWS Transcribe (según los precios vigentes en la fecha de este artículo).

Actualización de agosto de 2023: En el lanzamiento de Voicegain Whisper, Voicegain anunció un precio de lista de 0,0037 $/min (0,225 $/hora). Este precio es un 37,5% inferior al de Open AI y se ha conseguido desde que optimizamos el rendimiento de Whisper. Para probarlo, regístrese para obtener una cuenta de desarrollador gratuita. Encontrará las instrucciones aquí.

3. Whisper API + ChatGPT API, creados para utilizarse juntos

Lo que también fue significativo fue que Open AI anunció el lanzamiento de las API ChatGPT con el lanzamiento de las API Whisper. Los desarrolladores pueden combinar la potencia de los modelos Whisper Speech-to-Text con los LLM GPT 3.5 y GPT 4.0 (el modelo subyacente que utiliza ChatGPT) para potenciar aplicaciones de IA conversacional muy interesantes. Sin embargo, aquí hay una consideración importante: el uso de la API Whisper con LLM como ChatGPT funciona siempre y cuando la aplicación sólo utilice audio pregrabado/por lotes (por ejemplo, analizar la grabación de conversaciones de call center para QA o Compliance o transcribir y extraer reuniones de Zoom para recordar el contexto). Los desarrolladores que deseen crear bots de voz o IVR de voz necesitarán un buen modelo de conversión de voz a texto en tiempo real.

Limitaciones

1. No soporta Streaming/Tiempo real

Como se ha indicado anteriormente, Whisper de Open AI no es compatible con aplicaciones que requieran transcripción en tiempo real/en tiempo real, lo que podría ser relevante para una amplia variedad de aplicaciones de IA dirigidas a centros de llamadas, educación, casos de uso legal y reuniones. Si está buscando un proveedor de API de transmisión de voz a texto, no dude en ponerse en contacto con nosotros a través de la dirección de correo electrónico que se indica a continuación

2. Costes de infraestructura del funcionamiento de Whisper

El rendimiento de los modelos Whisper -tanto para los modelos medianos como para los grandes- es relativamente bajo. En Voicegain, nuestros ingenieros de ML han probado el rendimiento de los modelos Whisper en varias instancias de cálculo populares basadas en GPU NVIDIA disponibles en nubes públicas (AWS, GCP, Microsoft Azure y Oracle Cloud). También tenemos experiencia en la vida real porque procesamos más de 10 millones de horas de audio al año. Como resultado, tenemos un sólido conocimiento de lo que se necesita para ejecutar un modelo como Whisper de OpenAI en un entorno de producción.

Hemos descubierto que el coste de infraestructura de Whisper-medium en un entorno de nube oscila entre 0,07 y 0,10 dólares por hora. Puede ponerse en contacto con nosotros por correo electrónico para obtener información detallada sobre los supuestos y el respaldo de nuestro modelo de costes. Un factor importante a tener en cuenta es que en un entorno de producción de un solo inquilino, la infraestructura informática no puede funcionar a un nivel de utilización muy alto. El rendimiento máximo necesario para soportar el tráfico de la vida real puede ser varias veces (2-3x) el rendimiento medio. En términos netos, determinamos que, aunque los desarrolladores no tendrían que pagar por las licencias de software, los costes de infraestructura de la nube seguirían siendo sustanciales.

Además de este coste de infraestructura, el mayor gasto de ejecutar Whisper on the Edge (On-Premise + Private Cloud) es que requeriría un equipo back-end dedicado de ingeniería y desarrollo que pueda dividir la grabación de audio en segmentos que puedan enviarse a Whisper y realizar la gestión de colas. Este equipo también tendría que supervisar todas las necesidades de cumplimiento y seguridad de la información (por ejemplo, ejecutar análisis de vulnerabilidades, detección de intrusiones, etc.).

b) El precio por canal lo hace caro para los casos de uso de Call Center y reuniones.

A fecha de publicación de este post, Whisper no dispone de una API de audio multicanal. Por lo tanto, si su aplicación incluye audio con varios altavoces, el precio efectivo por minuto de Whisper = Número de canales * 0,006. Tanto para reuniones como para casos de uso en centros de llamadas, este precio puede llegar a ser prohibitivo.

3. Ausencia de funciones clave: diarización, marcas de tiempo, redacción de PII

A esta versión de Whisper le faltan algunas características clave que los desarrolladores necesitarían. Las tres más importantes son la diarización (separación de hablantes), las marcas de tiempo y la redacción de PII.

Próximamente - APIs Voicegain Whisper

Voicegain está trabajando en el lanzamiento de un modelo Voicegain-Whisper sobre sus API. Con él, los desarrolladores podrán beneficiarse de la infraestructura Voicegain compatible con PCI/SOC-2 y de funciones avanzadas como diarización, redacción de PII, conformidad con PCI y sellos de tiempo. Para inscribirse en la lista de espera, envíenos un correo electrónico a sales@voicegain.ai

‍

Acerca de Voicegain

En Voicegain, creamos modelos Speech-to-Text/ASR basados en aprendizaje profundo que igualan o superan la precisión de los modelos STT de los grandes actores. Desde hace más de 4 años, clientes de startups y empresas han utilizado nuestras API para crear y lanzar productos de éxito que procesan más de 600 millones de minutos al año. Nos centramos en desarrolladores que necesitan una gran precisión (conseguida mediante el entrenamiento de modelos acústicos personalizados) y un despliegue en infraestructuras privadas a un precio asequible. Ofrecemos un acuerdo de nivel de servicio en el que garantizamos que un modelo personalizado entrenado con sus datos será tan preciso o más que las opciones más populares, incluido Whisper de Open AI.

También tenemos modelos entrenados específicamente para el audio de los centros de llamadas. Aunque Whisper es un digno competidor (por supuesto, una empresa mucho mayor con 100 veces más recursos que nosotros), como desarrolladores acogemos con satisfacción la innovación que Open AI está desencadenando en este mercado. Al añadir las API de ChatGPT a nuestra función de voz a texto, tenemos previsto ampliar nuestra oferta de API a la comunidad de desarrolladores.

Para obtener una cuenta de desarrollador en Voicegain con créditos gratuitos, haz clic aquí.

Leer más →

Sustituya su IVR y guíe a sus agentes con un asistente de voz con IA

Navegación basada en árboles

Un solo paso para responder

Captación limitada de la intención del usuario

Captación detallada de la intención del usuario

Captura de datos de campos numéricos

Captura de datos alfanuméricos complejos

ASR/STT de ajuste fino

Más de 15 años de experiencia

Integración de telefonía

Pago por resultados

Dirija sus llamadas a Voicegain.

Entable una conversación con sus clientes

Completar llamada o transferir a agente

Guíe a sus agentes en tiempo real

¿Tiene más preguntas?