Новости Софт 30.03.2024 в 08:00 comment views icon

OpenAI представила Voice Engine, модель генерации голоса по образцу — оказывается, ее уже слышали массовые пользователи

author avatar
https://itc.ua/wp-content/uploads/2023/11/photo_2023-11-12_18-48-05-3-96x96.jpg *** https://itc.ua/wp-content/uploads/2023/11/photo_2023-11-12_18-48-05-3-96x96.jpg *** https://itc.ua/wp-content/uploads/2023/11/photo_2023-11-12_18-48-05-3-96x96.jpg

Андрей Русанов

Автор сайта

Раздел Технологии выходит при поддержке Favbet Tech

OpenAI представила результаты работы Voice Engine, инструмента для реалистичного синтеза голоса на основе 15-секундного образца и текста, которая разрабатывалась около двух лет. Но публичного доступа к нему нет — из-за очевидных опасений компании относительно безопасности.

«Мы надеемся начать диалог об ответственном применении синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям. На основе этих разговоров и результатов этих небольших тестов мы примем более обоснованное решение о том, стоит ли и как развертывать эту технологию в масштабе», — говорится в блоге OpenAI.

Модель генеративного искусственного интеллекта, которая работает с Voice Engine, некоторое время скрывалась на виду. Она лежит в основе голоса и возможности читать вслух у ChatGPT, а также предварительно настроенных голосов, доступных в API преобразования текста в язык OpenAI. Spotify также использует его с начала сентября, чтобы дублировать подкасты на разных языках.

Компания видит несколько путей применения технологии: оказание помощи тем, кто по каким-то причинам не может читать, перевод, предоставление голосовых услуг удаленным сообществам, поддержка людей с нарушениями голоса и помощь при его восстановлении. Примеры применения с семплами на нескольких языках также представлены в блоге.

Сайт TechCrunch спросил представителя компании Джеффа Харриса, на каких материалах обучали Voice Engine. Он ответил, что модель Voice Engine была обучена на смеси лицензированных и общедоступных данных. Детали обучения моделей искусственного интеллекта могут представлять как конкурентное преимущество, так и источник юридических проблем, поэтому отсутствие подробностей не удивляет. Voice Engine использует данные пользователя крайне осторожно:

«Мы берем небольшой образец аудио и текста и создаем реалистичную речь, которая соответствует оригинальному оратору, — говорит Харрис. — Используемое аудио удаляется после завершения запроса».

По данным сайта, цена будущей услуги будет «кусаться». OpenAI удалила цену использования Voice Engine из маркетинговых материалов, но в документах, которые просмотрел TechCrunch, указана стоимость $15 за один миллион символов, или ~162 500 слов на английском. Это немного больше, чем роман «Оливер Твист» Диккенса. Это означает примерно 18 часов аудио, то есть цена несколько ниже $1 в час.

Онлайн-курс "Data Science with Python" від robot_dreams.
Навчіться користуватися бібліотеками Python для розв’язання задач дата-саєнтистики, обробки масивів даних та побудови ML-моделей.
Програма курсу і реєстрація

Стоимость меньше, чем у одного из самых популярных конкурентов, ElevenLabs, — $11 за 100 000 символов в месяц. Интересно, что вариант с качеством HD стоит вдвое дороже, но, что представитель OpenAI сказал TechCrunch, что нет разницы между голосами HD и не HD — это можно понимать как угодно. Также Voice Engine не предлагает элементов управления тоном, высотой или другими характеристиками голоса.

Стоимость работы актера озвучивания на сервисе ZipRecruiter колеблются от $12 до $79 в час — это намного дороже, чем у Voice Engine. Актеры с агентами получат гораздо более высокую плату. Также возникает и проблема дипфейков. Поэтому компания пока движется очень осторожно, как с приведенными примерами использования.

Функция Personal Voice в iOS 17 — техноблогер Маркес Браунли показал ИИ-клонирование голоса в действии. Результат впечатляет и пугает одновременно

Раздел Технологии выходит при поддержке Favbet Tech

Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков. IT-компания входит в группу компаний FAVBET.


Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: