Cree aplicaciones de IA de voz generativa con nuestras API de ASR/voz a texto y NLU potenciadas por LLM. Grabe y transcriba reuniones, llamadas de centros de contacto, vídeos, etc. Obtenga Resumen, Sentimiento y más con tecnología LLM. Cree asistentes de voz conversacionales que se integren con su plataforma de Contact Center. Empiece hoy mismo con nuestra plataforma para desarrolladores...
El ASR de aprendizaje profundo de Voicegain ofrece una combinación imbatible de precisión, precio y flexibilidad. Voicegain ASR puede desplegarse en las instalaciones, en su VPC o invocarse como servicio en la nube. Nos integramos desde el primer momento con las principales plataformas de centros de contacto, videoconferencias y bots.
La precisión inicial de Voicegain, tanto para el reconocimiento de voz por lotes como para el reconocimiento de voz en tiempo real, está a la altura de los mejores. Sin embargo, puede alcanzar una precisión de más de 90 cuando se entrena con sus datos.
Voicegain tiene un precio entre un 50% y un 75% inferior al de los grandes proveedores de voz a texto en la nube. Nuestros precios Edge también son muy asequibles en comparación con las opciones de la competencia.
Acceda a Voicegain en nuestra nube multiusuario. O despliéguelo en su centro de datos o VPC. Utilice su infraestructura de audio existente e intégrela con un protocolo de su elección.
Nuestro ASR se basa en los avances más recientes en aprendizaje profundo. Utilizamos redes neuronales profundas basadas en transformadores de extremo a extremo y las hemos entrenado con varias decenas de miles de horas de diversos conjuntos de datos de audio.
API para integrar la transcripción en su aplicación y crear bots de voz accesibles a través de la telefonía. Implemente Voicegain en su infraestructura (VPC, Datacenter) o utilice nuestro servicio en la nube.
Consigue tu propio asistente de reuniones con IA para automatizar la toma de notas. Sepa siempre quién ha dicho qué, cuándo y dónde. Se integra con plataformas de reuniones de vídeo como Zoom, Microsoft Teams y Google Meet. Opciones Edge (On-Prem o VPC) disponibles.
Automatice el control de calidad y extraiga información de CX de las interacciones de voz en el centro de contacto. Disponible licencia de marca blanca o de código fuente de la interfaz de usuario.
Voicegain, la plataforma Edge Voice AI líder para empresas y compañías de SaaS de voz, se complace en anunciar la finalización con éxito de una Auditoría de Sistemas y Control Organizativo (SOC) 2 Tipo 1 realizada por Sensiba LLP.
Leer más →Los LLM como ChatGPT y Bard están arrasando en todo el mundo. Un LLM como ChatGPT es realmente bueno tanto en la comprensión del lenguaje como en la adquisición de conocimientos sobre este contenido. El resultado de esto es casi espeluznante y aterrador. Porque una vez que estos LLM adquieren conocimientos, son capaces de responder con gran precisión a preguntas que en el pasado parecían requerir el juicio humano.
Un gran caso de uso de los LLM es el análisis de reuniones empresariales, tanto internas (entre empleados) como externas (por ejemplo, conversaciones con clientes, proveedores, etc.).
En los últimos años, las empresas han estado utilizando principalmente ofertas SaaS multi-tenant de Inteligencia de Ingresos/Ventas y Meeting AI para transcribir conversaciones de negocios y extraer información. Con estas ofertas multiusuario, la transcripción y el procesamiento del lenguaje natural tienen lugar en la nube del proveedor. Una vez generada la transcripción, se utilizan los modelos NLU ofrecidos por el proveedor de Meeting AI para extraer información. Por ejemplo, productos de inteligencia de ingresos como Gong extraen preguntas y bloqueadores de ventas en conversaciones de ventas. La mayoría de los asistentes de IA para reuniones extraen resúmenes y elementos de acción.
Esencialmente, estos modelos NLU -y muchos de ellos son anteriores a los LLM- eran capaces de resumir, extraer temas, palabras clave y frases. A las empresas no les importaba utilizar la infraestructura en la nube del proveedor para almacenar las transcripciones, ya que lo que este NLU podía hacer parecía bastante inofensivo.
Sin embargo, los LLM lo llevan a otro nivel. Nuestro equipo utilizó la API Open AI Embeddings para generar incrustaciones de las transcripciones de nuestras reuniones diarias durante un mes. Almacenamos estas incrustaciones en una base de datos vectorial de código abierto (nuestra base de conocimientos). Durante las pruebas, para cada pregunta del usuario, generamos incrustaciones de la pregunta y consultamos la base de datos vectorial (es decir, la base de conocimientos) para obtener incrustaciones relacionadas/similares.
A continuación, proporcionamos estos documentos relacionados como contexto y la pregunta del usuario como pregunta a la API de GPT 3.5 para que pudiera generar la respuesta. Los resultados fueron realmente buenos.
Pudimos obtener respuestas a las siguientes preguntas
1. Provide a summary of the contract with <Largest Customer Name>.
2. What is the progress on <Key Initiative>?
3. ¿Ha contratado la empresa a nuevos empleados?
4. ¿Discutió la empresa algún secreto comercial?
5. ¿Cuál es la opinión del equipo sobre Mongodb Atlas frente a Google Firestore?
6. ¿Qué nuevos productos tiene previsto desarrollar la empresa?
7. ¿Qué proveedor de nube utiliza la empresa?
8. ¿Cuál es el progreso de una iniciativa clave?
9. ¿Están contentos los empleados trabajando en la empresa?
10. ¿Está el equipo luchando contra el fuego?
Las respuestas de ChatGPT a las preguntas anteriores fueron sorprendente e inquietantemente precisas. En el caso de la pregunta 4, indicó que no quería responder a la pregunta. Y cuando no disponía de información adecuada (por ejemplo, en la pregunta 9), lo indicaba en su respuesta.
En Voicegain, siempre hemos sido grandes defensores de por qué la IA de voz debe permanecer en la periferia. Ya habíamos escrito sobre ello en el pasado.
Las transcripciones de las reuniones de cualquier empresa son una auténtica mina de oro de información. Ahora, con el poder de los LLM, se pueden consultar muy fácilmente para obtener información sorprendente. Pero si estas transcripciones se almacenan en la nube de otro proveedor, se corre el riesgo de exponer a terceros información confidencial de cualquier empresa.
De ahí que para las empresas sea extremadamente crítico que esas transcripciones se almacenen únicamente en infraestructuras privadas (detrás del cortafuegos). Es muy importante que el departamento informático de la empresa se asegure de que así sea para salvaguardar la información privada y confidencial.
Si está buscando una solución de este tipo, podemos ayudarle. En Voicegain, ofrecemos Voicegain Transcribe, una solución empresarial para Meeting AI. Con Voicegain Transcribe, toda la solución se puede implementar en un centro de datos (en bare-metal) o en una nube privada. Puede obtener más información aquí.
Han pasado otros 6 meses desde que publicamos nuestra última evaluación comparativa de la precisión del reconocimiento de voz. Por aquel entonces, los resultados eran los siguientes (de más preciso a menos): Microsoft, luego Amazon seguido de cerca por Voicegain, luego el nuevo Google latest_long y Google Enhanced en último lugar.
Aunque el orden se ha mantenido con respecto a la última referencia, tres empresas -Amazon, Voicegain y Microsoft- mostraron una mejora significativa.
Desde la última evaluación comparativa, en Voicegain hemos invertido en más formación -principalmente conferencias- realizada con zoom y en directo. La formación con este tipo de datos ha aumentado la precisión de nuestro modelo. Actualmente estamos realizando otra ronda de formación centrada en las conversaciones de los centros de llamadas.
En cuanto a los demás reconocedores:
Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del conjunto de datos de Jason Kincaid y 20 archivos publicados por rev.ai y eliminamos todos los archivos en los que ninguno de los reconocedores pudo alcanzar una tasa de error de palabra (WER) inferior al 25%.
Esta vez también sólo un archivo era tan difícil. Se trataba de una entrevista telefónica de mala calidad(Byron Smith Interview 111416 - YouTube) con una WER del 25,48%.
Lo publicamos porque queremos asegurarnos de que cualquier tercero, ya sea vendedor, desarrollador o analista de ASR, pueda reproducir estos resultados.
Arriba puede ver los gráficos de caja con los resultados. El gráfico también muestra la tasa media y mediana de errores de palabra (WER).
Sólo 3 reconocedores han mejorado en los últimos 6 meses.
Los datos detallados de esta prueba comparativa indican que Amazon es mejor que Voicegain en archivos de audio con una WER inferior a la mediana y peor en archivos de audio con una precisión superior a la mediana. Por lo demás, AWS y Voicegain están muy igualados. Sin embargo, también hemos ejecutado una prueba comparativa específica para un cliente en la que ocurrió lo contrario: Amazon fue ligeramente mejor que Voicegain en archivos de audio con WER por encima de la mediana, pero Voicegain fue mejor en archivos de audio con WER por debajo de la mediana. En definitiva, depende del tipo de archivos de audio, pero en general, nuestros resultados indican que Voicegain está muy cerca de AWS.
Veamos el número de archivos en los que cada reconocedor fue el mejor.
Ahora hemos realizado la misma prueba 5 veces para poder trazar gráficos que muestren cómo ha mejorado cada uno de los reconocedores en los últimos 2 años y 3 meses. (Nota: en el caso de Google, los 2 últimos resultados corresponden al último modelo de larga duración, mientras que los demás resultados de Google corresponden a vídeos mejorados).
Se puede ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.
Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace medio año. Microsoft, por su parte, lanza un reconocedor mejorado cada 6 meses. Nuestras mejoras son incluso más frecuentes.
Como puedes ver, el campo está muy cerca y se obtienen resultados diferentes en archivos diferentes (la media y la mediana no pintan el cuadro completo). Como siempre, te invitamos a que revises nuestras aplicaciones, te registres y compruebes nuestra precisión con tus datos.
A la hora de seleccionar un software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento. Estos factores son, por ejemplo
1. Haga clic aquí para obtener instrucciones para acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz interesante y quieres probar nuestras API, haz clic aquí para registrarte y obtener una cuenta de desarrollador y recibir 50 dólares en créditos gratuitos.
3. Si quieres llevar a Voicegain como tu propio asistente de transcripción de IA a las reuniones, haz clic aquí.
¿Le interesa personalizar el ASR o implantar Voicegain en su infraestructura?