Acceda al modelo Whisper de OpenAI con las API REST fáciles de usar de Voicegain. Obtenga soporte empresarial de Voicegain, cumplimiento de SOC2 y PCI y funciones añadidas como soporte de dos canales (estéreo), diarización, marcas de tiempo a nivel de palabra y mucho más.
Whisper es un modelo de reconocimiento automático del habla (ASR) de código abierto basado en aprendizaje profundo desarrollado por Open AI. Whisper se ha entrenado con 680 000 horas de datos multilingües, lo que le permite trabajar bien con distintos acentos y ruidos de fondo.
La arquitectura Whisper es un enfoque sencillo de extremo a extremo, implementado como un transformador codificador-decodificador.
Los desarrolladores pueden alimentar fácilmente la salida de la transcripción a un LLM como GPT para mejorar la legibilidad de la transcripción, resumirla, extraer el sentimiento y más análisis.
OpenAI Whisper ASR can transcribe in multiple languages. The following 57 languages have a Word Error Rate of < 50%. Check out our fine-tuning services to get a better ASR.
Whisper está entrenado principalmente para el inglés, por lo que las tasas de error de palabras en otros idiomas pueden seguir siendo elevadas. Voicegain ofrece servicios de ajuste de Whisper en sus datos para obtener mayor precisión y menor WER.
La API de conversión de voz a texto Voicegain Whisper tiene un precio asequible de 0,25 $/hora (para una instancia basada en EE. UU.); es un 40% inferior al precio de Open AI (a fecha de diciembre de 2023).
Implemente Voicegain Whisper en su centro de datos o en su instancia VPC para obtener la máxima privacidad y control de los datos. Ingiera nuestros registros y métricas en su Grafana para supervisar el rendimiento.
Voicegain Whisper añade funciones clave como la diarización y las marcas de tiempo a nivel de palabra a Whisper de Open AI.
Voicegain ofrece un soporte de clase empresarial de alta calidad las 24 horas del día, los 7 días de la semana, para el modelo Whisper. Esto permite a los desarrolladores centrar sus esfuerzos en la optimización de LLM y utilizar nuestras API para ASR.
Voicegain es una organización que cumple las normas PCI-DSS y SOC-2. Redactamos todas las entidades relacionadas con PCI y PII, tanto en la transcripción como en el audio. Escaneamos el código subyacente en busca de vulnerabilidades y mantenemos actualizadas todas las bibliotecas.
Whisper se ha entrenado principalmente con conjuntos de datos en inglés disponibles públicamente. Voicegain puede ofrecer servicios de ajuste de Whisper con sus datos para reducir la WER en su conjunto de datos.
Puede registrarse hoy mismo para obtener una cuenta de desarrollador utilizando su dirección de correo electrónico profesional.
Si desea comprobar rápidamente la precisión de Whisper sin escribir código, puede consultar la primera opción mencionada a continuación. Si es un desarrollador y desea probar nuestras API, consulte la opción 2 a continuación.
Hoy nos complace anunciar el lanzamiento de Voicegain Whisper, una versión optimizada del modelo de reconocimiento de voz/ASR Whisper de Open AI que se ejecuta en la infraestructura en la nube gestionada por Voicegain y a la que se puede acceder mediante las API de Voicegain. Los desarrolladores pueden utilizar las mismas API e infraestructuras sólidas y bien documentadas que procesan más de 60 millones de minutos de audio cada mes para empresas líderes como Samsung, Aetna y otras startups innovadoras como Level.AI, Onvisource y DataOrb.
La API Whisper de Voicegain es una robusta y asequible API de conversión de voz a texto por lotes para desarrolladores que buscan integrar transcripciones de conversaciones con LLMs como GPT 3.5 y 4 (de Open AI) PaLM2 (de Google), Claude (de Anthropic), LLAMA 2 (Open Source de Meta), y sus propios LLMs privados para potenciar aplicaciones de IA generativa. Open AI ha publicado varias versiones de los modelos Whisper en código abierto. Con el lanzamiento de hoy, Voicegain soporta Whisper-medium, Whisper-small y Whisper-base. Voicegain admite ahora la transcripción en varios idiomas compatibles con Whisper.
Aquí tiene un enlace a nuestra página de productos
Hay cuatro razones principales para que los desarrolladores utilicen Voicegain Whisper en lugar de otras ofertas:
Aunque los desarrolladores pueden utilizar Voicegain Whisper en nuestra oferta de nube multiusuario, un gran diferenciador de Voicegain es nuestra compatibilidad con Edge. La plataforma Voicegain ha sido diseñada para la nube privada de un solo inquilino y el despliegue en centros de datos. Además del modelo central de voz a texto basado en el aprendizaje profundo, nuestra plataforma incluye nuestros servicios de API REST, sistemas de registro y supervisión, autoescalado y gestión de tareas y colas fuera de línea. En la actualidad, las mismas API permiten a Voicegain procesar más de 60 millones de minutos al mes. Podemos aportar esta experiencia práctica del mundo real de ejecutar modelos de IA a escala a nuestra comunidad de desarrolladores.
Dado que la plataforma Voicegain se despliega en clústeres Kubernetes, es muy adecuada para empresas modernas de productos SaaS de IA y empresas innovadoras que quieran integrarse con sus LLM privados.
En Voicegain, hemos optimizado Whisper para obtener un mayor rendimiento. Como resultado, podemos ofrecer acceso al modelo Whisper a un precio un 40% inferior al que ofrece Open AI.
Voicegain también ofrece funciones críticas para centros de contacto y reuniones. Nuestras API admiten audio estéreo de dos canales, algo habitual en los sistemas de grabación de los centros de contacto. Las marcas de tiempo a nivel de palabra es otra característica importante que ofrece nuestra API y que es necesaria para asignar audio a texto. Hay otra característica que tenemos para los modelos Voicegain - modelos de diarización mejorados - que es una característica necesaria para los casos de uso de los centros de contacto y reuniones - pronto estará disponible en Whisper.
También ofrecemos asistencia premium y SLA de tiempo de actividad para nuestra oferta de nube multiusuario. En la actualidad, estas API procesan más de 60 millones de minutos de audio al mes para nuestros clientes empresariales y startups.
OpenAI Whisper es un sistema de reconocimiento automático del habla (ASR) de código abierto entrenado con 680.000 horas de datos supervisados multilingües y multitarea recogidos de la web. La arquitectura del modelo se basa en el sistema de transformadores codificador-decodificador y ha mostrado una mejora significativa del rendimiento en comparación con modelos anteriores porque se ha entrenado en varias tareas de procesamiento del habla, como el reconocimiento del habla multilingüe, la traducción del habla, la identificación del lenguaje hablado y la detección de la actividad de la voz.
Obtenga más información sobre Voicegain Whisper haciendo clic aquí. Cualquier desarrollador, ya sea una startup unipersonal o una gran empresa, puede acceder al modelo Voicegain Whisper registrándose para obtener una cuenta de desarrollador gratuita. Le ofrecemos 15.000 minutos de créditos gratuitos si se registra hoy mismo.
Hay dos formas de probar Voicegain Whisper. Se describen aquí. Si desea más información o tiene alguna pregunta, envíenos un correo electrónico a support@voicegain.ai
El 1 de marzo de 2023, Open AI anunció que los desarrolladores podrían acceder al modelo de voz a texto Whisper de Open AI a través de API REST fáciles de usar. OpenAI también publicó API para GPT3.5, el LLM que está detrás del popular producto ChatGPT. La disponibilidad general de la próxima versión de LLM, GPT 4, está prevista para julio de 2023.
Desde el lanzamiento inicial de Open AI Whisper en octubre de 2022, ha sido un gran atractivo para los desarrolladores. Un ASR de código abierto de alta precisión es extremadamente atractivo. Whisper de OpenAI ha sido entrenado con 680.000 horas de datos de audio, que es mucho más de lo que se entrena a la mayoría de los modelos. Aquí hay un enlace a su github.
Sin embargo, la comunidad de desarrolladores que quiere aprovechar Whisper se enfrenta a tres grandes limitaciones:
1. Costes de infraestructura: La ejecución de Whisper -especialmente los modelos grandes y medianos- requiere costosas opciones de computación basadas en GPU con uso intensivo de memoria (véase más adelante).
2. Experiencia interna en IA: Para utilizar el modelo Whisper de Open AI, una empresa tiene que invertir en la creación de un equipo interno de ingeniería de inteligencia artificial capaz de utilizar, optimizar y dar soporte a Whisper en un entorno de producción. Aunque Whisper ofrece funciones básicas como la conversión de voz a texto, la identificación de idiomas, la puntuación y el formateo, aún faltan algunas funciones de IA, como la diarización de hablantes y la redacción de PII, que tendrían que desarrollarse. Además, las empresas tendrían que poner en marcha un NOC en tiempo real para la asistencia continua. Incluso un equipo de desarrolladores de 2-3 personas a pequeña escala podría ser caro de contratar y mantener, a menos que los volúmenes de llamadas justifiquen tal inversión. Este equipo interno también tiene que asumir toda la responsabilidad de las tareas relacionadas con la infraestructura en la nube, como el autoescalado y la supervisión de registros para garantizar el tiempo de actividad.
3. Falta de compatibilidad con el tiempo real: Whisper es un modelo de voz a texto por lotes. Los desarrolladores que necesiten modelos de voz a texto en tiempo real deberán evaluar otras opciones de ASR/STT.
Al asumir ahora la responsabilidad de alojar este modelo y hacerlo accesible a través de API fáciles de usar, tanto Open AI como Voicegain abordan las dos primeras limitaciones.
Actualización de agosto de 2023: El 5 de agosto de 2023, Voicegain anunció el lanzamiento de Voicegain Whisper, una versión optimizada de Whisper de Open AI que utiliza las API de Voicegain. Aquí hay un enlace al anuncio. Además de Voicegain Whisper, Voicegain también ofrece Speech-to-Text en tiempo real/streaming y otras funciones como soporte de dos canales/estéreo (necesario para centros de llamadas), diarización del hablante y redacción de PII. Todo esto se ofrece en la infraestructura de Voicegain que cumple con las normas PCI y SOC-2.
Este artículo destaca algunas de las principales ventajas y limitaciones del uso de Whisper, ya sea utilizando las API de Open AI, las API de Voicegain o alojándolo por su cuenta.
En nuestras pruebas de referencia, los modelos Whisper de OpenAI demostraron una gran precisión en una amplia gama de conjuntos de datos de audio. Nuestros ingenieros de ML llegaron a la conclusión de que los modelos Whisper funcionan bien en conjuntos de datos de audio que van desde reuniones, podcasts, clases teóricas, vídeos de YouTube y audio de centros de llamadas. Hemos comparado Whisper-base, Whisper-small y Whisper-medium con algunos de los mejores motores ASR/Speech-to-Text del mercado.
La tasa media de error de palabra (WER) de Whisper-medium fue del 11,46% para el audio de reuniones y del 17,7% para el audio de centros de llamadas. De hecho, era inferior a las WER de las ofertas de STT de otras grandes empresas como Microsoft Azure y Google. Descubrimos que AWS Transcribe tenía una WER competitiva con Whisper.
He aquí una observación interesante: es posible superar la precisión de reconocimiento de Whisper, pero para ello habría que crear modelos personalizados. Los modelos personalizados son modelos que se entrenan con los datos de audio específicos de nuestros clientes. De hecho, para el audio de centros de llamadas, nuestros ingenieros de ML pudieron demostrar que nuestros modelos de voz a texto específicos para centros de llamadas eran iguales o incluso mejores que algunos de los modelos de Whisper. Esto tiene un sentido intuitivo porque el audio de los locutorios no está fácilmente disponible en Internet para que Open AI pueda acceder a él.
Póngase en contacto con nosotros por correo electrónico (support@voicegain.ai) si desea revisar y validar/probar estas referencias de precisión.
El precio de Whisper, de 0,006 $/min (0,36 $/hora), es muy inferior al de las ofertas de voz a texto de otros grandes operadores de la nube. Esto se traduce en un descuento del 75 % con respecto a Google Speech-to-Text y AWS Transcribe (según los precios vigentes en la fecha de este artículo).
Actualización de agosto de 2023: En el lanzamiento de Voicegain Whisper, Voicegain anunció un precio de lista de 0,0037 $/min (0,225 $/hora). Este precio es un 37,5% inferior al de Open AI y se ha conseguido desde que optimizamos el rendimiento de Whisper. Para probarlo, regístrese para obtener una cuenta de desarrollador gratuita. Encontrará las instrucciones aquí.
Lo que también fue significativo fue que Open AI anunció el lanzamiento de las API ChatGPT con el lanzamiento de las API Whisper. Los desarrolladores pueden combinar la potencia de los modelos Whisper Speech-to-Text con los LLM GPT 3.5 y GPT 4.0 (el modelo subyacente que utiliza ChatGPT) para potenciar aplicaciones de IA conversacional muy interesantes. Sin embargo, aquí hay una consideración importante: el uso de la API Whisper con LLM como ChatGPT funciona siempre y cuando la aplicación sólo utilice audio pregrabado/por lotes (por ejemplo, analizar la grabación de conversaciones de call center para QA o Compliance o transcribir y extraer reuniones de Zoom para recordar el contexto). Los desarrolladores que deseen crear bots de voz o IVR de voz necesitarán un buen modelo de conversión de voz a texto en tiempo real.
Como se ha indicado anteriormente, Whisper de Open AI no es compatible con aplicaciones que requieran transcripción en tiempo real/en tiempo real, lo que podría ser relevante para una amplia variedad de aplicaciones de IA dirigidas a centros de llamadas, educación, casos de uso legal y reuniones. Si está buscando un proveedor de API de transmisión de voz a texto, no dude en ponerse en contacto con nosotros a través de la dirección de correo electrónico que se indica a continuación
El rendimiento de los modelos Whisper -tanto para los modelos medianos como para los grandes- es relativamente bajo. En Voicegain, nuestros ingenieros de ML han probado el rendimiento de los modelos Whisper en varias instancias de cálculo populares basadas en GPU NVIDIA disponibles en nubes públicas (AWS, GCP, Microsoft Azure y Oracle Cloud). También tenemos experiencia en la vida real porque procesamos más de 10 millones de horas de audio al año. Como resultado, tenemos un sólido conocimiento de lo que se necesita para ejecutar un modelo como Whisper de OpenAI en un entorno de producción.
Hemos descubierto que el coste de infraestructura de Whisper-medium en un entorno de nube oscila entre 0,07 y 0,10 dólares por hora. Puede ponerse en contacto con nosotros por correo electrónico para obtener información detallada sobre los supuestos y el respaldo de nuestro modelo de costes. Un factor importante a tener en cuenta es que en un entorno de producción de un solo inquilino, la infraestructura informática no puede funcionar a un nivel de utilización muy alto. El rendimiento máximo necesario para soportar el tráfico de la vida real puede ser varias veces (2-3x) el rendimiento medio. En términos netos, determinamos que, aunque los desarrolladores no tendrían que pagar por las licencias de software, los costes de infraestructura de la nube seguirían siendo sustanciales.
Además de este coste de infraestructura, el mayor gasto de ejecutar Whisper on the Edge (On-Premise + Private Cloud) es que requeriría un equipo back-end dedicado de ingeniería y desarrollo que pueda dividir la grabación de audio en segmentos que puedan enviarse a Whisper y realizar la gestión de colas. Este equipo también tendría que supervisar todas las necesidades de cumplimiento y seguridad de la información (por ejemplo, ejecutar análisis de vulnerabilidades, detección de intrusiones, etc.).
A fecha de publicación de este post, Whisper no dispone de una API de audio multicanal. Por lo tanto, si su aplicación incluye audio con varios altavoces, el precio efectivo por minuto de Whisper = Número de canales * 0,006. Tanto para reuniones como para casos de uso en centros de llamadas, este precio puede llegar a ser prohibitivo.
A esta versión de Whisper le faltan algunas características clave que los desarrolladores necesitarían. Las tres más importantes son la diarización (separación de hablantes), las marcas de tiempo y la redacción de PII.
Voicegain está trabajando en el lanzamiento de un modelo Voicegain-Whisper sobre sus API. Con él, los desarrolladores podrán beneficiarse de la infraestructura Voicegain compatible con PCI/SOC-2 y de funciones avanzadas como diarización, redacción de PII, conformidad con PCI y sellos de tiempo. Para inscribirse en la lista de espera, envíenos un correo electrónico a sales@voicegain.ai
En Voicegain, creamos modelos Speech-to-Text/ASR basados en aprendizaje profundo que igualan o superan la precisión de los modelos STT de los grandes actores. Desde hace más de 4 años, clientes de startups y empresas han utilizado nuestras API para crear y lanzar productos de éxito que procesan más de 600 millones de minutos al año. Nos centramos en desarrolladores que necesitan una gran precisión (conseguida mediante el entrenamiento de modelos acústicos personalizados) y un despliegue en infraestructuras privadas a un precio asequible. Ofrecemos un acuerdo de nivel de servicio en el que garantizamos que un modelo personalizado entrenado con sus datos será tan preciso o más que las opciones más populares, incluido Whisper de Open AI.
También tenemos modelos entrenados específicamente para el audio de los centros de llamadas. Aunque Whisper es un digno competidor (por supuesto, una empresa mucho mayor con 100 veces más recursos que nosotros), como desarrolladores acogemos con satisfacción la innovación que Open AI está desencadenando en este mercado. Al añadir las API de ChatGPT a nuestra función de voz a texto, tenemos previsto ampliar nuestra oferta de API a la comunidad de desarrolladores.
Para obtener una cuenta de desarrollador en Voicegain con créditos gratuitos, haz clic aquí.