Із ChatGPT тепер можна спілкуватися голосом та картинками

Опублікував Юрій Орос

В одному з найбільших оновлень ChatGPT, OpenAI запустила два нових способи взаємодії зі своїм застосунком. По-перше, ChatGPT отримав голос. Варто обрати один з п’яти синтетичних голосів, і можна спілкуватися з чат-ботом ніби телефоном, отримуючи відповіді в режимі реального часу.

ChatGPT додала функцію розпізнання зображень, це означає, що тепер можна завантажувати зображення в застосунок і запитувати його про те, що на них зображено, передає MIT Technologie Review.

Ці оновлення доповнюють оголошення минулого тижня про те, що DALL-E 3, останню версію моделі створення зображень OpenAI, під’єднають до ChatGPT та навчать чат-бота генерувати зображення.

Змога розмовляти з ChatGPT базується на двох окремих моделях. Whisper, чинна модель перетворення мови в текст OpenAI, перетворює голос на текст, який потім передає чат-боту. А нова модель перетворення тексту в мову перетворює відповіді ChatGPT у вимовлені слова.

У демонстраційному ролику, який компанія надала обмеженому числу журналістів минулого тижня, Джоанна Джанг, продакт-менеджер, продемонструвала асортимент синтетичних голосів ChatGPT. Вони були створені шляхом навчання моделі перетворення тексту в мову на голосах акторів, яких найняла OpenAI. У майбутньому це може навіть дати змогу користувачам створювати власні голоси.

OpenAI ділиться цією моделлю перетворення тексту в мовлення з кількома іншими компаніями, включаючи Spotify, яка оголосила, що використовує ту ж саму технологію синтетичного голосу для перекладу подкастів знаменитостей на кілька мов, які будуть озвучені синтетичними версіями власних голосів подкастерів.

Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.

Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.