Precios - Desarrolladores | Plataforma de voz a texto

Nube de Voicegain

Precios basados en el uso según el uso, sin compromisos.50 $ en créditos proporcionados al registrarse, sin necesidad de tarjeta de crédito para empezar hoy mismo. Se aplican límites de tarifa; obtenga límites de tarifa personalizados con compromisos de ingresos. Se aplican costes adicionales para el soporte premium. Póngase en contacto con nosotros para obtener más información.

Empezar - Crédito gratuito

* No se requiere tarjeta de crédito.

Producto para desarrolladores

Por segundo

Por minuto

Por hora

STT - Fuera de línea -Básico

$0.00005

$0.0030

$0.18

STT - Sin conexión - Mejorado

$0.00007

$0.0042

$0.252

STT - En tiempo real - Básico

$0.00007

$0.0042

$0.252

STT - En tiempo real - Mejorado

$0.00009

$0.0054

$0.324

API de bot de telefonía (IVR+ STT)

Póngase en contacto con nosotros

MRCP ^ASR6

$0.00012

$0.0072

$0.432

Voicegain Cloud - Supuestos

1. El uso de la plataforma se mide y se factura por segundos, pero las facturas generadas por nuestro sistema de facturación informan del uso en horas.
‍
2. 2. Cada solicitud de API está sujeta a una facturación mínima de 6 segundos y un incremento de 1 segundo después de eso. Una solicitud de API de 4 segundos se factura por 6 segundos o 0,0012 $ (0,00020 $*6) y una solicitud en tiempo real de 7 segundos se factura 0,00020 $*7.
‍
3. El modelo básico ofrece STT en un mes. El modelo básico ofrece STT en un canal único sin diarización ni redacción de PII. El modelo mejorado ofrece STT para audio de centro de llamadas de dos canales (agente y persona que llama en canales separados) También incluye Diarización (canal mono con varios altavoces) y Redacción PII.
‍
4. STT en tiempo real-Básico y sin Diarización. STT Realtime-Basic y STT Realtime-Enhanced son para streaming de audio sobre Web-socket. Basic es para canal mono sin diarización. Enhanced es para audio de dos canales/estéreo para aplicaciones de call center.

5. Telephony Bot API es la combinación de IVR y Speech-to-Text de Voicegain.
‍
6. MRCP ASR es la ASR en tiempo real de Voicegain. MRCP ASR es el Speech-to-Text/ASR en tiempo real como parte de una Sesión MRCP. Este precio se aplica a toda la duración de la sesión MRCP. No incluye el coste de la grabación del 100% de las sesiones.
‍
7. Se aplican límites de tarifa para el pago por sesión. Ofrecemos límites de tarifa más altos y precios más bajos con compromisos de volumen y plazo. Póngase en contacto con nosotros en sales@voicegain.ai para obtener más información.

Voicegain Edge (centro de datos/nube privada)

Implemente Voicegain en su infraestructura privada. 30 días de prueba gratuita. Licencias disponibles basadas en puertos o en uso. Se aplica una compra mínima de puertos/uso. Además, hay un coste anual de soporte.

Póngase en contacto con nosotros

Producto para desarrolladores

Por puerto/mes

Por audio/hora

STT - Fuera de línea -(Mejorado y multicanal)

$60

$0.16

STT - En tiempo real - Transcripción

$72

$0.20

STT - A medida

Póngase en contacto con nosotros

MRCP ASR

$48 - $72

$0.20

Voicegain Edge - Supuestos

1. Voicegain Edge se refiere a nuestra plataforma desplegada en la infraestructura privada del cliente (Bare-metal en un centro de datos o nube privada). Voicegain se despliega en un clúster Kubernetes. Preferimos GPUs NVIDIA para aplicaciones que requieren alta concurrencia. Las CPU son compatibles con aplicaciones de baja concurrencia. La orquestación del clúster se realiza desde la nube de Voicegain.
‍
2. Costes de infraestructura. El cliente incurrirá en costes de infraestructura y es responsable de la monitorización de Kubernetes. Para Private Cloud, recomendamos Kubernetes gestionado desde el proveedor de cloud. Para Datacenter, por favor contáctenos para opciones de soporte.
‍‍
3. "Puerto" - para STT Offline - se define como rendimiento. Así, 25 puertos le permitirían transcribir 25 horas de audio sin conexión por hora. Para STT en tiempo real, Puerto es el número de sesiones web-socket concurrentes. Por ejemplo, 25 puertos significa un máximo de 25 sesiones STT simultáneas en tiempo real durante un mes.
‍
4. Licencia por uso. Para las licencias basadas en el uso, cada solicitud está sujeta a una facturación mínima de 6 segundos y un incremento de 1 segundo después de eso. Por ejemplo, una solicitud en tiempo real de 4 segundos se facturará por 6 segundos o 0,0012 $ (0,00020 $*6) y una solicitud en tiempo real de 7 segundos se facturará por 7 segundos.
‍
5. Voicegain ofrece descuentos por volumen. Voicegain ofrece descuentos por volumen y plazos. Póngase en contacto con nosotros en sales@voicegain.ai para recibir precios personalizados.

Preguntas frecuentes

Visite nuestro blog para obtener información, puntos de referencia, ejemplos de código y mucho más.

Blog de Voicegain

Borde

Raspberry Pi como cliente de streaming de audio

Por

Jacek Jarmulak

min leer

Puedes transmitir audio para la API de transcripción de Voicegain desde cualquier ordenador, pero a veces es útil tener un dispositivo barato dedicado sólo para esta tarea. A continuación relatamos la experiencia de uno de nuestros clientes en el uso de una Raspbery Pi para transmitir audio para la transcripción en tiempo real. Sustituyó a un Mac Mini que se utilizó inicialmente para ese fin. El uso de Pi tenía dos ventajas: a) obviamente, el coste, y b) es menos probable que el Mac Mini sea "secuestrado" para otros fines.

Hardware

Voicegain Audio Streaming Daemon requiere muy poco en cuanto a recursos informáticos, por lo que incluso en una Raspberry Pi Zero es suficiente; sin embargo, recomendamos usar Raspberry Pi 3 B+ principalmente porque tiene a bordo un puerto Ethernet cableado de 1Gbps. Las conexiones WiFi son más propensas a tener problemas con el streaming utilizando el protocolo UDP.

Aquí hay una lista de todo el hardware utilizado en el proyecto (con precios de amazon (a julio de 2019)):

Placa base Element14 Raspberry Pi 3 B+ - $37.78
Miuzei Raspberry Pi 3 b+ Pantalla, 3.5 Pulgadas - $23.99
Miuzei 3.5 Pulgadas Pantalla Funda para 3.5 LCD - $9.99
Mini teclado de mano inalámbrico iPazzPort - $13.99
Adaptador de audio USB UGREEN - $8.99
Tarjeta SanDisk Ultra 32GB microSDHC UHS-I - $7.23
además de algunos existentes USB 5V fuente de alimentación fue utiliza.

Todos los componentes sumaron un total de 101,97 dólares. La razón por la que se incluyeron un mini monitor y un mini teclado es que hacen más cómodo controlar el dispositivo mientras está en el rack de audio. Por ejemplo, el mezclador de audio alsa se puede ajustar fácilmente de esta manera, mientras que al mismo tiempo se controla el nivel del audio a través de los auriculares.

Raspberry PI ejecutando AudioDaemon

Software

El dispositivo está ejecutando Raspbian estándar que se puede instalar fácilmente desde una imagen utilizando, por ejemplo, balenaEtcher. Después de la instalación base, se necesitaba lo siguiente para poner las cosas en marcha:

habilitar acceso ssh
cambiar el dispositivo de audio por defecto a una tarjeta de sonido USB (Raspbian viene por defecto con alsa y controladores de sonido USB básicos)
instalar el controlador para la pantalla (de lo contrario, la fuente de salida es demasiado pequeña y no se puede leer)
Instalación de OpenJDK 9
utilice el enlace generado desde el portal de Voicegain para descargar el archivo jar de Voicegain AudioDaemon y la configuración JSON correcta
establecer el número correcto de fuente de audio en el script de inicio de AudioDaemon y lanzar el demonio

Observaciones

Estas son algunas de las lecciones aprendidas con esta configuración en los últimos 6 meses:

Durante el streaming, el uso de la CPU se mantiene por debajo del 10%.
El heap de Java está configurado a 128m, lo que parece ser más que suficiente porque los GCs consiguen reducirlo a unos 54m
Raspberry Pi ha resultado ser muy fiable: no hemos tenido ni un solo problema con el hardware ni con el sistema operativo Raspbian.
Tarjeta de audio USB barata que ofrece una calidad de sonido muy buena (al menos para el reconocimiento de voz).
Hay que evitar las fuentes de alimentación USB muy baratas, ya que a veces provocan un zumbido en el audio (pero eso también depende del dispositivo de audio que se conecte).

‍

Leer más →

Bot de voz

Cómo crear un robot de voz con Voicegain, Twilio, RASA y AWS Lambda

Por

Jacek Jarmulak

min leer

Puedes encontrar el código completo (menos la lógica RASA - tendrás que proporcionar la tuya propia) en nuestro repositorio github.

¿Para qué sirve?

La configuración permite llamar a un número de teléfono y luego interactuar con un Voicebot que utiliza RASA como motor lógico de diálogo.

¿Cómo funciona?

Los componentes

Voz programable Twilio - Configuramos un número de teléfono Twilio para que apunte a una App TwiML que tenga la función AWS Lambda como URL de devolución de llamada.
Función AWS Lambda - una única función Node.js con un activador de API Gateway (tipo API HTTP simple).
API STT de Voicegain - estamos usando /asr/transcribe/async api con entrada vía websocket stream y salida vía callback. La devolución de llamada es a la misma función de AWS Lambda, pero la devolución de llamada de Voicegain es POST, mientras que la devolución de llamada de Twilio es GET.
RASA - La lógica de diálogo es proporcionada por el servidor de Diálogo NLU de RASA que es accesible a través de la API RestInput.
AWS S3 para almacenar los resultados de la transcripción en cada turno de diálogo.

Actualización de noviembre de 2021: No recomendamos S3 y AWS Lambda para una configuración de producción. Una revisión más actualizada de varias opciones para construir un Voice Bot se describe aquí. Debería considerar sustituir la funcionalidad de S3 y AWS Lambda por un servidor web capaz de mantener el estado, como Node.js o Python Flask.

Los pasos

A continuación se presenta el diagrama secuencial. Básicamente, la secuencia de operaciones es la siguiente:

Llamar a un número de teléfono Twilio
Twilio realiza una devolución de llamada inicial a la función Lambda
La función lambda envía "Hola" a la RASA y la RASA responde con el diálogo inicial.
La función Lambda llama a Voicegain para iniciar una sesión de transcripción asíncrona. Voicegain responde con una url de un websocket para streaming de audio.
Lambda function responds to Twilio with a TwiML command <Connect><Stream> to open a Media Stream to Voicegain. The command will also contain the text of the question prompt.
Voicegain utiliza TTS para generar un mensaje de audio a partir del texto de la pregunta RASA y lo transmite a través de websocket a Twilio para su reproducción.
La persona que llama escucha la indicación y responde con una frase
Twilio transmite el audio de la llamada a Voicegain ASR para el reconocimiento de voz
Voicegain ASR transcribe el habla a texto y hace un callback con el resultado de la transcripción a la función Lambda
La función lambda almacena el resultado de la transcripción en S3
Voicegain cierra la sesión websocket con Twilio
Twilio advierte el fin de sesión con ASR y hace un callback a la función Lambda para saber qué hacer a continuación
La función lambda recupera el resultado del reconocimiento de S3 y lo pasa a RASA.
RASA procesa la respuesta y genera la siguiente pregunta del diálogo
Continuamos el siguiente turno igual que en el paso 4.

‍

Leer más →

Plataforma para desarrolladores

Nube de Voicegain

Voicegain Cloud - Supuestos

Voicegain Edge (centro de datos/nube privada)

Voicegain Edge - Supuestos

Preguntas frecuentes

Hardware

Software

Observaciones

¿Para qué sirve?

¿Cómo funciona?

Los componentes

Los pasos

Empresa