С ChatGPT теперь можно общаться голосом и картинками

Опубликовал
Юрій Орос

В одном из крупнейших обновлений ChatGPT, OpenAI запустила два новых способа взаимодействия со своим приложением. Во-первых, ChatGPT получил голос. Стоит выбрать один из пяти синтетических голосов, и можно общаться с чат-ботом будто по телефону, получая ответы в режиме реального времени.

ChatGPT также добавила функцию распознавания изображений, это означает, что теперь можно загружать изображения в приложение и запрашивать его о том, что на них изображено, передает MIT Technologie Review.

Эти обновления дополняют объявление на прошлой неделе о том, что DALL-E 3, последнюю версию модели создания изображений OpenAI, подключат к ChatGPT и научат чат-бота генерировать изображения.

Возможность разговаривать с ChatGPT базируется на двух отдельных моделях. Whisper, действующая модель преобразования речи в текст OpenAI, превращает голос в текст, который затем передает чат-боту. А новая модель преобразования текста в речь превращает ответы ChatGPT в произнесенные слова.

В демонстрационном ролике, который компания предоставила ограниченному числу журналистов на прошлой неделе, Джоанна Джанг, продакт-менеджер, продемонстрировала ассортимент синтетических голосов ChatGPT. Они были созданы путем обучения модели преобразования текста в речь на голосах актеров, которых наняла OpenAI. В будущем это может даже позволить пользователям создавать собственные голоса.

OpenAI делится этой моделью преобразования текста в речь с несколькими другими компаниями, включая Spotify, которая объявила, что использует ту же самую технологию синтетического голоса для перевода подкастов знаменитостей на несколько языков, что будут озвучены синтетическими версиями собственных голосов подкастеров.

Disqus Comments Loading...