Функция Personal Voice в iOS 17 — техноблогер Маркес Браунли показал ИИ-клонирование голоса в действии. Результат впечатляет и пугает одновременно

Опубликовал
Володимир Скрипін

Одна из ключевых новых функций iOS 17 — Personal Voice, клонирование и использование копии голоса пользователя для озвучивания сообщений во время звонков iPhone. Известный ютубер и техноблогер Маркес Браунли (он же MKBHD) уже успел протестовать и поделился своими впечатлениями в коротком видео, позволяющем оценить функциональность в действии.

Как работает клонирование голоса Personal Voice в iOS 17

Personal Voice («Персональный голос») — одна из пакета новых функций доступности для людей с нарушениями зрения, слуха и когнитивных способностей, которые впервые анонсировала Apple в мае. Она синтезирует язык на основе голоса пользователя и предназначена прежде всего для тех, кто рискует потерять способность говорить вследствие болезни. Для создания копии собственного голоса нужно записать через встроенный микрофон референс — в течение 15 минут зачитывать вслух рандомизированные текстовые подсказки. Функция опирается на алгоритмы машинного обучения и интегрируется с Live Speech («Живой язык»), другой системной функцией (работает на всех устройствах Apple) для озвучивания предварительно набранного текста во время вызова Face Time или голосовой связи.

Apple обещает не собирать голосовые данные пользователей – все необходимые вычисления будут выполняться локально на устройстве без привлечения внешних серверов компании.

Ожидание и реальность

Демо функция, опубликованная Маркесом Браунли, наглядно демонстрирует, как все работает на практике — она позволяет убедиться, что никаких существенных отклонений от официального описания функциональности, предоставленного разработчиком, нет. Также живое демо позволяет оценить возможности технологии синтеза речи с помощью нейросетей — так, на этом этапе развития ИИ испытывает определенные проблемы с воспроизведением эмоциональной составляющей и тональности, поэтому от голосового клона отдает машинностью. В целом же результат впечатляет и несколько пугает одновременно, особенно с учетом 15-минутной записи. Разница между ChatGPT-3.5 и ChatGPT-4 просто огромна, и если технологии синтеза речи будут развиваться так же стремительно, как языковые модели, то вскоре распознать оригинал от копии будет ох как непросто.

Англійська для початківців від Englishdom.
Для тих, хто тільки починає вивчати англійську і хоче вміти використовувати базову лексику і граматику.
Реєстрація на курс

Видео

Сначала функция Personal Voice будет работать только на английском языке на устройствах с процессорами Apple. Обновление iOS 17, которое можно попробовать в бете, выйдет осенью вместе с iPhone 15 — новая версия ОС будет работать на iPhone XR/XS/XS Max и более новых моделях.

Disqus Comments Loading...