Рубрики NoticiasSuave

OpenAI presenta Voice Engine, un modelo de generación de voz basado en el modelo —, que resulta que ya ha sido escuchado por usuarios masivos

Опубликовал
Андрей Русанов

OpenAI introdujo los resultados del Voice Engine, una herramienta de síntesis de voz realista basada en una muestra de 15 segundos y texto, que lleva unos dos años en desarrollo. Pero no hay acceso público a ella — debido a las evidentes preocupaciones de seguridad de la empresa.

«Esperamos iniciar un diálogo sobre el uso responsable de las voces sintéticas y sobre cómo la sociedad puede adaptarse a estas nuevas oportunidades. Basándonos en estas conversaciones y en los resultados de estas pequeñas pruebas, tomaremos una decisión más informada sobre si desplegar esta tecnología a escala y cómo hacerlo», dice el blog de OpenAI.

El modelo de inteligencia artificial generativa que funciona con el motor de voz ha estado oculto a plena vista durante algún tiempo. Es la base de las funciones de voz y lectura en voz alta de ChatGPT, así como de las voces preconfiguradas disponibles en la API de conversión de texto a voz de OpenAI. Spotify también lo utiliza desde principios de septiembre para doblar podcasts a diferentes idiomas.

La empresa ve varias aplicaciones para esta tecnología: ayudar a quienes no saben leer por algún motivo, traducir, prestar servicios de voz a comunidades remotas, ayudar a personas con trastornos de la voz y contribuir a la recuperación de la voz. En el blog también se presentan ejemplos de aplicaciones con muestras en varios idiomas.

Sitio web TechCrunch preguntó a Jeff Harris, representante de la empresa, con qué materiales se había entrenado Voice Engine. Respondió que Voice Engine se entrenó con una mezcla de datos con licencia y de dominio público. Los detalles del entrenamiento de los modelos de inteligencia artificial pueden ser tanto una ventaja competitiva como una fuente de problemas legales, así que la falta de detalles no es sorprendente. Voice Engine utiliza los datos de los usuarios con extrema precaución:

«Tomamos una pequeña muestra de audio y texto y creamos un habla realista que coincide con el hablante original, — dice Harris. — El audio que se utiliza se elimina una vez finalizada la consulta».

Según el sitio web, el precio del futuro servicio será «mordisco». OpenAI ha eliminado el precio de usar el motor de voz de sus materiales de marketing, pero los documentos revisados por TechCrunch indican un coste de 15 dólares por millón de caracteres, o ~162.500 palabras en inglés. Eso es un poco más que una novela «Oliver Twist» Dickens. Esto se traduce en unas 18 horas de audio, por lo que el precio es ligeramente inferior a 1 dólar por hora.

El coste es inferior al de uno de los competidores más populares, ElevenLabs, a —11 dólares por 100.000 caracteres al mes. Curiosamente, la opción de calidad HD cuesta el doble, pero un representante de OpenAI dijo a TechCrunch que no hay diferencia entre las voces HD y las que no lo son — esto se puede interpretar como se quiera. Voice Engine tampoco ofrece ningún control para el tono, la afinación u otras características de la voz.

El coste del trabajo de un actor de voz en ZipRecruiter oscila entre 12 y 79 dólares por hora, lo que es mucho más caro que Voice Engine. Los actores con agentes recibirán un salario mucho mayor. También está el problema de los dipshares. Así que la empresa se está moviendo con mucha cautela hasta ahora, al igual que con los casos de uso anteriores.

Los comentarios de Disqus están cargando....