API de conversión de voz a texto | Reconocimiento del habla | IA de voz

Visite nuestro blog para obtener más información, puntos de referencia, ejemplos de código y mucho más.

Empresa, Edge, Perspectivas, Transcripción

¿Por qué los expedientes académicos deben almacenarse en su infraestructura privada en la era de los LLM?

Por

Arun Santhebennur

min leer

Los LLM como ChatGPT y Bard están arrasando en todo el mundo. Un LLM como ChatGPT es realmente bueno tanto en la comprensión del lenguaje como en la adquisición de conocimientos sobre este contenido. El resultado de esto es casi espeluznante y aterrador. Porque una vez que estos LLM adquieren conocimientos, son capaces de responder con gran precisión a preguntas que en el pasado parecían requerir el juicio humano.

‍
Un gran caso de uso de los LLM es el análisis de reuniones empresariales, tanto internas (entre empleados) como externas (por ejemplo, conversaciones con clientes, proveedores, etc.).

‍

En los últimos años, las empresas han estado utilizando principalmente ofertas SaaS multi-tenant de Inteligencia de Ingresos/Ventas y Meeting AI para transcribir conversaciones de negocios y extraer información. Con estas ofertas multiusuario, la transcripción y el procesamiento del lenguaje natural tienen lugar en la nube del proveedor. Una vez generada la transcripción, se utilizan los modelos NLU ofrecidos por el proveedor de Meeting AI para extraer información. Por ejemplo, productos de inteligencia de ingresos como Gong extraen preguntas y bloqueadores de ventas en conversaciones de ventas. La mayoría de los asistentes de IA para reuniones extraen resúmenes y elementos de acción.

Esencialmente, estos modelos NLU -y muchos de ellos son anteriores a los LLM- eran capaces de resumir, extraer temas, palabras clave y frases. A las empresas no les importaba utilizar la infraestructura en la nube del proveedor para almacenar las transcripciones, ya que lo que este NLU podía hacer parecía bastante inofensivo.

Sin embargo, los LLM lo llevan a otro nivel. Nuestro equipo utilizó la API Open AI Embeddings para generar incrustaciones de las transcripciones de nuestras reuniones diarias durante un mes. Almacenamos estas incrustaciones en una base de datos vectorial de código abierto (nuestra base de conocimientos). Durante las pruebas, para cada pregunta del usuario, generamos incrustaciones de la pregunta y consultamos la base de datos vectorial (es decir, la base de conocimientos) para obtener incrustaciones relacionadas/similares.

A continuación, proporcionamos estos documentos relacionados como contexto y la pregunta del usuario como pregunta a la API de GPT 3.5 para que pudiera generar la respuesta. Los resultados fueron realmente buenos.

Pudimos obtener respuestas a las siguientes preguntas

1. Provide a summary of the contract with <Largest Customer Name>.

2. What is the progress on <Key Initiative>?

3. ¿Ha contratado la empresa a nuevos empleados?

4. ¿Discutió la empresa algún secreto comercial?

5. ¿Cuál es la opinión del equipo sobre Mongodb Atlas frente a Google Firestore?

6. ¿Qué nuevos productos tiene previsto desarrollar la empresa?

7. ¿Qué proveedor de nube utiliza la empresa?

8. ¿Cuál es el progreso de una iniciativa clave?

9. ¿Están contentos los empleados trabajando en la empresa?

10. ¿Está el equipo luchando contra el fuego?

Las respuestas de ChatGPT a las preguntas anteriores fueron sorprendente e inquietantemente precisas. En el caso de la pregunta 4, indicó que no quería responder a la pregunta. Y cuando no disponía de información adecuada (por ejemplo, en la pregunta 9), lo indicaba en su respuesta.

En Voicegain, siempre hemos sido grandes defensores de por qué la IA de voz debe permanecer en la periferia. Ya habíamos escrito sobre ello en el pasado.

Las transcripciones de las reuniones de cualquier empresa son una auténtica mina de oro de información. Ahora, con el poder de los LLM, se pueden consultar muy fácilmente para obtener información sorprendente. Pero si estas transcripciones se almacenan en la nube de otro proveedor, se corre el riesgo de exponer a terceros información confidencial de cualquier empresa.

De ahí que para las empresas sea extremadamente crítico que esas transcripciones se almacenen únicamente en infraestructuras privadas (detrás del cortafuegos). Es muy importante que el departamento informático de la empresa se asegure de que así sea para salvaguardar la información privada y confidencial.

Si está buscando una solución de este tipo, podemos ayudarle. En Voicegain, ofrecemos Voicegain Transcribe, una solución empresarial para Meeting AI. Con Voicegain Transcribe, toda la solución se puede implementar en un centro de datos (en bare-metal) o en una nube privada. Puede obtener más información aquí.

‍

‍

‍

‍

Leer más →

Punto de referencia

Evaluación comparativa de la precisión de la conversión de voz a texto - diciembre de 2022

Por

Jacek Jarmulak

min leer

Han pasado otros 6 meses desde que publicamos nuestra última evaluación comparativa de la precisión del reconocimiento de voz. Por aquel entonces, los resultados eran los siguientes (de más preciso a menos): Microsoft, luego Amazon seguido de cerca por Voicegain, luego el nuevo Google latest_long y Google Enhanced en último lugar.

Aunque el orden se ha mantenido con respecto a la última referencia, tres empresas -Amazon, Voicegain y Microsoft- mostraron una mejora significativa.

Desde la última evaluación comparativa, en Voicegain hemos invertido en más formación -principalmente conferencias- realizada con zoom y en directo. La formación con este tipo de datos ha aumentado la precisión de nuestro modelo. Actualmente estamos realizando otra ronda de formación centrada en las conversaciones de los centros de llamadas.

En cuanto a los demás reconocedores:

Microsoft y Amazon mejoraron aproximadamente en la misma proporción.
Los reconocedores de Google no mejoraron. De hecho, sus cifras de WER son peores que las de junio.

Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del conjunto de datos de Jason Kincaid y 20 archivos publicados por rev.ai y eliminamos todos los archivos en los que ninguno de los reconocedores pudo alcanzar una tasa de error de palabra (WER) inferior al 25%.

Esta vez también sólo un archivo era tan difícil. Se trataba de una entrevista telefónica de mala calidad(Byron Smith Interview 111416 - YouTube) con una WER del 25,48%.

Lo publicamos porque queremos asegurarnos de que cualquier tercero, ya sea vendedor, desarrollador o analista de ASR, pueda reproducir estos resultados.

Resultados

Arriba puede ver los gráficos de caja con los resultados. El gráfico también muestra la tasa media y mediana de errores de palabra (WER).

Sólo 3 reconocedores han mejorado en los últimos 6 meses.

Amazon un 0,68% en la mediana y un 0,40% en la media
Ganancia de voz del 0,47% en la mediana y del 0,45% en la media.
Microsoft en un 0,33% en la mediana y un 0,25% en la media

Los datos detallados de esta prueba comparativa indican que Amazon es mejor que Voicegain en archivos de audio con una WER inferior a la mediana y peor en archivos de audio con una precisión superior a la mediana. Por lo demás, AWS y Voicegain están muy igualados. Sin embargo, también hemos ejecutado una prueba comparativa específica para un cliente en la que ocurrió lo contrario: Amazon fue ligeramente mejor que Voicegain en archivos de audio con WER por encima de la mediana, pero Voicegain fue mejor en archivos de audio con WER por debajo de la mediana. En definitiva, depende del tipo de archivos de audio, pero en general, nuestros resultados indican que Voicegain está muy cerca de AWS.

‍

Mejor reconocedor

Veamos el número de archivos en los que cada reconocedor fue el mejor.

Microsoft fue el mejor en 36 de los 63 archivos
Amazon fue el mejor en 15 archivos.
Voicegain fue el mejor en 9 archivos de audio
Google latest-long fue el mejor en sólo 1 archivo
Google Video Enhanced fue el mejor en 2 archivos - estos fueron los 2 archivos más fáciles - Google obtuvo 0,82% y 1,52% de WER en ellos - uno era Sherlock Holmes de Librivox y el otro El arte de la guerra de Sun Tzu, también un audiolibro de Librivox.

‍

Mejoras a lo largo del tiempo

Ahora hemos realizado la misma prueba 5 veces para poder trazar gráficos que muestren cómo ha mejorado cada uno de los reconocedores en los últimos 2 años y 3 meses. (Nota: en el caso de Google, los 2 últimos resultados corresponden al último modelo de larga duración, mientras que los demás resultados de Google corresponden a vídeos mejorados).

Se puede ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace medio año. Microsoft, por su parte, lanza un reconocedor mejorado cada 6 meses. Nuestras mejoras son incluso más frecuentes.

Como puedes ver, el campo está muy cerca y se obtienen resultados diferentes en archivos diferentes (la media y la mediana no pintan el cuadro completo). Como siempre, te invitamos a que revises nuestras aplicaciones, te registres y compruebes nuestra precisión con tus datos.

‍

La precisión no lo es todo

A la hora de seleccionar un software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento. Estos factores son, por ejemplo

Posibilidad de personalizar el modelo acústico: el modelo de Voicegain puede entrenarse a partir de sus datos de audio. Tenemos varias entradas de blog en las que se describe la personalización del modelo tanto en casos de investigación como de uso real. Las mejoras pueden variar desde varios puntos porcentuales en casos más genéricos, hasta más del 50% en algunos casos específicos, en particular para voicebots.
Facilidad de integración: muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren una interfaz con plataformas de telefonía o centros de contacto locales.
Precio - Voicegain es entre un 60% y un 75% más barato que otros proveedores de software de conversión de voz a texto/ASR, al tiempo que ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar el habla en grandes volúmenes.
Soporte para despliegue On-Premise/Edge - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para desplegar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. En cambio, Voicegain puede instalarse en cualquier clúster Kubernetes, ya sea gestionado por un gran proveedor de servicios en la nube o por el cliente.

‍

Prueba Voicegain.

1. Haga clic aquí para obtener instrucciones para acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz interesante y quieres probar nuestras API, haz clic aquí para registrarte y obtener una cuenta de desarrollador y recibir 50 dólares en créditos gratuitos.

3. Si quieres llevar a Voicegain como tu propio asistente de transcripción de IA a las reuniones, haz clic aquí.

‍