Precios | Plataforma de voz a texto

Nube de Voicegain

Precios de pago por uso sin compromiso. 50 $ en créditos al registrarse, sin necesidad de tarjeta de crédito para empezar hoy mismo. Se aplican límites de tarifa; obtenga límites de tarifa personalizados con compromisos de ingresos. Póngase en contacto con nosotros para obtener más información.

Empezar - Crédito gratuito

* No se requiere tarjeta de crédito.

Producto para desarrolladores

Por segundo

Por minuto

Por hora

STT - Fuera de línea ^-Básico3

$0.00005

$0.0030

$0.180

STT - Sin conexión - ^Mejorado3

$0.00006

$0.0036

$0.216

STT - Fuera de línea - ^Multicanal3

$0.00010

$0.0060

$0.36

STT-Realtime - ^{Transcripción4}

$0.00009

$0.0054

$0.324

STT - ^{Personalizado5}

Póngase en contacto con nosotros

Contacte con nosotros

Póngase en contacto con nosotros

STT-Realtime - Bots/IVR (MRCP & Bot API⁾⁶

$0.00015

$0.0090

$0.54

Voicegain Cloud - Supuestos

1. El uso de la plataforma se mide y se factura por segundo, pero nuestro sistema de facturación muestra el uso en horas.
‍
2. 2. Cada solicitud de API está sujeta a una facturación mínima de 6 segundos y un incremento de 1 segundo después de eso. Una petición en tiempo real de 4 segundos se factura por 6 segundos o 0,0012$ (0,00020$*6) y una petición en tiempo real de 7 segundos se factura 0,00020$*7.
‍
3. STT Offline-Basic ofrece STT en un monocanal sin Diarización y sin Redacción PII. El precio básico incluye Voicegain Whisper-small. STT Offline-Enhanced ofrece Diarización y Redacción PII además de la Transcripción. Voicegain Whisper-medium se proporciona a precio Enhanced. También soporta 2 canales para grabaciones de Call Center donde el agente y el llamante están en canales separados. STT-Offline - Multi-Channel es para grabaciones de reuniones en Zoom o cualquier otra plataforma de reuniones donde cada orador está en un archivo de audio separado.

4. STT Realtime-Transcription es para el streaming Speech-to-Text de Voicegain sobre Web-sockets. El precio de la tabla es por canal. Ofrecemos un descuento del 50% a los clientes de centros de llamadas en los que el canal del agente y el canal de la persona que llama se transmiten a través de canales separados.

5. El modelo personalizado de voz a texto se construye entrenando nuestro modelo estándar con datos adicionales del cliente (mediante aprendizaje por transferencia). Póngase en contacto con nosotros para consultar precios.
‍
6. STT en tiempo real con MRT. STT-Realtime with MRCP or Telephony Bot API es el precio por el uso de nuestro Speech-to-Text/ASR como parte de una sesión MRCP o Telephony Bot API. Este precio se aplica a toda la duración de la sesión MRCP o Telephony Bot/SIP. No incluye la grabación del 100% de la llamada de las sesiones.
‍
7. Se aplican límites de tarifa para el pago por uso. Ofrecemos límites de tarifa más altos y precios más bajos con compromisos de volumen y plazo. Póngase en contacto con nosotros en sales@voicegain.ai para obtener más información.

Voicegain Edge (centro de datos/nube privada)

Implemente Voicegain en su infraestructura privada. 30 días de prueba gratuita. Se ofrecen licencias basadas en puertos o en uso. Se aplica una compra mínima de puertos/uso. Pueden aplicarse costes de soporte anuales adicionales.

Póngase en contacto con nosotros

Producto para desarrolladores

Por puerto/mes

Por audio/hora

STT - Fuera de línea -(Mejorado y multicanal)

$60

$0.15

STT - En tiempo real - Transcripción

$72

$0.20

STT - A medida

Póngase en contacto con nosotros

STT - En tiempo real - Bots/IVR ( Bot API/MRCP)

$66

$0.18

Voicegain Edge - Supuestos

1. Voicegain Edge se refiere a nuestra plataforma desplegada en la infraestructura del cliente (bare-metal o VPC). Voicegain se despliega en un clúster Kubernetes. Preferimos GPUs NVIDIA para aplicaciones que requieren alta concurrencia. Las CPU son compatibles con aplicaciones de baja concurrencia. La orquestación del clúster se realiza desde la nube de Voicegain.
‍
2. Costes de infraestructura. El cliente incurrirá en costes de infraestructura y es responsable de la monitorización de Kubernetes. Para VPC, recomendamos Kubernetes gestionado desde el proveedor de la nube y para Datacenter, puede ponerse en contacto con nosotros para las opciones de soporte.
‍‍
3. "Puerto" - para STT Offline - se define como rendimiento. Así, 25 puertos le permitirían transcribir 25 horas de audio sin conexión por hora. Para STT en tiempo real, Puerto es el número de sesiones web-socket concurrentes. Por ejemplo, 25 puertos significa un máximo de 25 sesiones STT simultáneas en tiempo real durante un mes.
‍
4. Licencia por uso. Para las licencias basadas en el uso, cada solicitud está sujeta a una facturación mínima de 6 segundos y un incremento de 1 segundo después de eso. Por ejemplo, una solicitud en tiempo real de 4 segundos se facturará por 6 segundos o 0,0012 $ (0,00020 $*6) y una solicitud en tiempo real de 7 segundos se facturará por 7 segundos.
‍
5. Voicegain ofrece descuentos por volumen. Voicegain ofrece descuentos por volumen y plazos. Póngase en contacto con nosotros en sales@voicegain.ai para recibir precios personalizados.

Preguntas frecuentes

Visite nuestro blog para obtener información, puntos de referencia, ejemplos de código y mucho más.

Blog de Voicegain

Borde

Raspberry Pi como cliente de streaming de audio

Por

Jacek Jarmulak

min leer

Puedes transmitir audio para la API de transcripción de Voicegain desde cualquier ordenador, pero a veces es útil tener un dispositivo barato dedicado sólo para esta tarea. A continuación relatamos la experiencia de uno de nuestros clientes en el uso de una Raspbery Pi para transmitir audio para la transcripción en tiempo real. Sustituyó a un Mac Mini que se utilizó inicialmente para ese fin. El uso de Pi tenía dos ventajas: a) obviamente, el coste, y b) es menos probable que el Mac Mini sea "secuestrado" para otros fines.

Hardware

Voicegain Audio Streaming Daemon requiere muy poco en cuanto a recursos informáticos, por lo que incluso en una Raspberry Pi Zero es suficiente; sin embargo, recomendamos usar Raspberry Pi 3 B+ principalmente porque tiene a bordo un puerto Ethernet cableado de 1Gbps. Las conexiones WiFi son más propensas a tener problemas con el streaming utilizando el protocolo UDP.

Aquí hay una lista de todo el hardware utilizado en el proyecto (con precios de amazon (a julio de 2019)):

Placa base Element14 Raspberry Pi 3 B+ - $37.78
Miuzei Raspberry Pi 3 b+ Pantalla, 3.5 Pulgadas - $23.99
Miuzei 3.5 Pulgadas Pantalla Funda para 3.5 LCD - $9.99
Mini teclado de mano inalámbrico iPazzPort - $13.99
Adaptador de audio USB UGREEN - $8.99
Tarjeta SanDisk Ultra 32GB microSDHC UHS-I - $7.23
además de algunos existentes USB 5V fuente de alimentación fue utiliza.

Todos los componentes sumaron un total de 101,97 dólares. La razón por la que se incluyeron un mini monitor y un mini teclado es que hacen más cómodo controlar el dispositivo mientras está en el rack de audio. Por ejemplo, el mezclador de audio alsa se puede ajustar fácilmente de esta manera, mientras que al mismo tiempo se controla el nivel del audio a través de los auriculares.

Raspberry PI ejecutando AudioDaemon

Software

El dispositivo está ejecutando Raspbian estándar que se puede instalar fácilmente desde una imagen utilizando, por ejemplo, balenaEtcher. Después de la instalación base, se necesitaba lo siguiente para poner las cosas en marcha:

habilitar acceso ssh
cambiar el dispositivo de audio por defecto a una tarjeta de sonido USB (Raspbian viene por defecto con alsa y controladores de sonido USB básicos)
instalar el controlador para la pantalla (de lo contrario, la fuente de salida es demasiado pequeña y no se puede leer)
Instalación de OpenJDK 9
utilice el enlace generado desde el portal de Voicegain para descargar el archivo jar de Voicegain AudioDaemon y la configuración JSON correcta
establecer el número correcto de fuente de audio en el script de inicio de AudioDaemon y lanzar el demonio

Observaciones

Estas son algunas de las lecciones aprendidas con esta configuración en los últimos 6 meses:

Durante el streaming, el uso de la CPU se mantiene por debajo del 10%.
El heap de Java está configurado a 128m, lo que parece ser más que suficiente porque los GCs consiguen reducirlo a unos 54m
Raspberry Pi ha resultado ser muy fiable: no hemos tenido ni un solo problema con el hardware ni con el sistema operativo Raspbian.
Tarjeta de audio USB barata que ofrece una calidad de sonido muy buena (al menos para el reconocimiento de voz).
Hay que evitar las fuentes de alimentación USB muy baratas, ya que a veces provocan un zumbido en el audio (pero eso también depende del dispositivo de audio que se conecte).

‍

Leer más →

Bot de voz

Cómo crear un robot de voz con Voicegain, Twilio, RASA y AWS Lambda

Por

Jacek Jarmulak

min leer

Puedes encontrar el código completo (menos la lógica RASA - tendrás que proporcionar la tuya propia) en nuestro repositorio github.

¿Para qué sirve?

La configuración permite llamar a un número de teléfono y luego interactuar con un Voicebot que utiliza RASA como motor lógico de diálogo.

¿Cómo funciona?

Los componentes

Voz programable Twilio - Configuramos un número de teléfono Twilio para que apunte a una App TwiML que tenga la función AWS Lambda como URL de devolución de llamada.
Función AWS Lambda - una única función Node.js con un activador de API Gateway (tipo API HTTP simple).
API STT de Voicegain - estamos usando /asr/transcribe/async api con entrada vía websocket stream y salida vía callback. La devolución de llamada es a la misma función de AWS Lambda, pero la devolución de llamada de Voicegain es POST, mientras que la devolución de llamada de Twilio es GET.
RASA - La lógica de diálogo es proporcionada por el servidor de Diálogo NLU de RASA que es accesible a través de la API RestInput.
AWS S3 para almacenar los resultados de la transcripción en cada turno de diálogo.

Actualización de noviembre de 2021: No recomendamos S3 y AWS Lambda para una configuración de producción. Una revisión más actualizada de varias opciones para construir un Voice Bot se describe aquí. Debería considerar sustituir la funcionalidad de S3 y AWS Lambda por un servidor web capaz de mantener el estado, como Node.js o Python Flask.

Los pasos

A continuación se presenta el diagrama secuencial. Básicamente, la secuencia de operaciones es la siguiente:

Llamar a un número de teléfono Twilio
Twilio realiza una devolución de llamada inicial a la función Lambda
La función lambda envía "Hola" a la RASA y la RASA responde con el diálogo inicial.
La función Lambda llama a Voicegain para iniciar una sesión de transcripción asíncrona. Voicegain responde con una url de un websocket para streaming de audio.
Lambda function responds to Twilio with a TwiML command <Connect><Stream> to open a Media Stream to Voicegain. The command will also contain the text of the question prompt.
Voicegain utiliza TTS para generar un mensaje de audio a partir del texto de la pregunta RASA y lo transmite a través de websocket a Twilio para su reproducción.
La persona que llama escucha la indicación y responde con una frase
Twilio transmite el audio de la llamada a Voicegain ASR para el reconocimiento de voz
Voicegain ASR transcribe el habla a texto y hace un callback con el resultado de la transcripción a la función Lambda
La función lambda almacena el resultado de la transcripción en S3
Voicegain cierra la sesión websocket con Twilio
Twilio advierte el fin de sesión con ASR y hace un callback a la función Lambda para saber qué hacer a continuación
La función lambda recupera el resultado del reconocimiento de S3 y lo pasa a RASA.
RASA procesa la respuesta y genera la siguiente pregunta del diálogo
Continuamos el siguiente turno igual que en el paso 4.

‍

Leer más →

Plataforma para desarrolladores

Nube de Voicegain

Voicegain Cloud - Supuestos

Voicegain Edge (centro de datos/nube privada)

Voicegain Edge - Supuestos

Hardware

Software

Observaciones

¿Para qué sirve?

¿Cómo funciona?

Los componentes

Los pasos

Empresa