OpenAI представила Voice Engine, модель генерации голоса по образцу — оказывается, ее уже слышали массовые пользователи

Опубликовал
Андрей Русанов

OpenAI представила результаты работы Voice Engine, инструмента для реалистичного синтеза голоса на основе 15-секундного образца и текста, которая разрабатывалась около двух лет. Но публичного доступа к нему нет — из-за очевидных опасений компании относительно безопасности.

«Мы надеемся начать диалог об ответственном применении синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям. На основе этих разговоров и результатов этих небольших тестов мы примем более обоснованное решение о том, стоит ли и как развертывать эту технологию в масштабе», — говорится в блоге OpenAI.

Модель генеративного искусственного интеллекта, которая работает с Voice Engine, некоторое время скрывалась на виду. Она лежит в основе голоса и возможности читать вслух у ChatGPT, а также предварительно настроенных голосов, доступных в API преобразования текста в язык OpenAI. Spotify также использует его с начала сентября, чтобы дублировать подкасты на разных языках.

Компания видит несколько путей применения технологии: оказание помощи тем, кто по каким-то причинам не может читать, перевод, предоставление голосовых услуг удаленным сообществам, поддержка людей с нарушениями голоса и помощь при его восстановлении. Примеры применения с семплами на нескольких языках также представлены в блоге.

Курс Power Skills For Tech від Enlgish4IT.
Зменшіть кількість непорозумінь на робочому місці та станьте більш ефективним у спілкуванні в мультикультурній команді. Отримайте знижку 10% за промокодом ITCENG.
Реєстрація на курс

Сайт TechCrunch спросил представителя компании Джеффа Харриса, на каких материалах обучали Voice Engine. Он ответил, что модель Voice Engine была обучена на смеси лицензированных и общедоступных данных. Детали обучения моделей искусственного интеллекта могут представлять как конкурентное преимущество, так и источник юридических проблем, поэтому отсутствие подробностей не удивляет. Voice Engine использует данные пользователя крайне осторожно:

«Мы берем небольшой образец аудио и текста и создаем реалистичную речь, которая соответствует оригинальному оратору, — говорит Харрис. — Используемое аудио удаляется после завершения запроса».

По данным сайта, цена будущей услуги будет «кусаться». OpenAI удалила цену использования Voice Engine из маркетинговых материалов, но в документах, которые просмотрел TechCrunch, указана стоимость $15 за один миллион символов, или ~162 500 слов на английском. Это немного больше, чем роман «Оливер Твист» Диккенса. Это означает примерно 18 часов аудио, то есть цена несколько ниже $1 в час.

Стоимость меньше, чем у одного из самых популярных конкурентов, ElevenLabs, — $11 за 100 000 символов в месяц. Интересно, что вариант с качеством HD стоит вдвое дороже, но, что представитель OpenAI сказал TechCrunch, что нет разницы между голосами HD и не HD — это можно понимать как угодно. Также Voice Engine не предлагает элементов управления тоном, высотой или другими характеристиками голоса.

Стоимость работы актера озвучивания на сервисе ZipRecruiter колеблются от $12 до $79 в час — это намного дороже, чем у Voice Engine. Актеры с агентами получат гораздо более высокую плату. Также возникает и проблема дипфейков. Поэтому компания пока движется очень осторожно, как с приведенными примерами использования.

Disqus Comments Loading...