Із ChatGPT тепер можна спілкуватися голосом та картинками

Опубликовал
Юрій Орос

В одному з найбільших оновлень ChatGPT, OpenAI запустила два нових способи взаємодії зі своїм застосунком. По-перше, ChatGPT отримав голос. Варто обрати один з п’яти синтетичних голосів, і можна спілкуватися з чат-ботом ніби телефоном, отримуючи відповіді в режимі реального часу.

ChatGPT додала функцію розпізнання зображень, це означає, що тепер можна завантажувати зображення в застосунок і запитувати його про те, що на них зображено, передає MIT Technologie Review.

Ці оновлення доповнюють оголошення минулого тижня про те, що DALL-E 3, останню версію моделі створення зображень OpenAI, під’єднають до ChatGPT та навчать чат-бота генерувати зображення.

Онлайн-курс "Створення електронної музики" від Skvot.
Практичний курс про те, як знайти власний стиль та написати й зарелізити свій перший трек.
Програма курсу і реєстрація

Змога розмовляти з ChatGPT базується на двох окремих моделях. Whisper, чинна модель перетворення мови в текст OpenAI, перетворює голос на текст, який потім передає чат-боту. А нова модель перетворення тексту в мову перетворює відповіді ChatGPT у вимовлені слова.

У демонстраційному ролику, який компанія надала обмеженому числу журналістів минулого тижня, Джоанна Джанг, продакт-менеджер, продемонструвала асортимент синтетичних голосів ChatGPT. Вони були створені шляхом навчання моделі перетворення тексту в мову на голосах акторів, яких найняла OpenAI. У майбутньому це може навіть дати змогу користувачам створювати власні голоси.

OpenAI ділиться цією моделлю перетворення тексту в мовлення з кількома іншими компаніями, включаючи Spotify, яка оголосила, що використовує ту ж саму технологію синтетичного голосу для перекладу подкастів знаменитостей на кілька мов, які будуть озвучені синтетичними версіями власних голосів подкастерів.

Disqus Comments Loading...