Згідно з оголошенням на заході Google Next, відтепер Gemini 1.5 Pro чутиме своїх користувачів — на практиці модель зможе прослуховувати завантажені аудіофайли чи виводити інформацію на основі дзвінків та відео без необхідності завантаження стенограми.
Сама Gemini 1.5 Pro була вперше запущена в лютому і нині є найпотужнішою мовною моделлю Google (за продуктивністю перевершує Gemini Ultra). Безсумнівно, її основною особливістю є обсяг контексту, який модель може обробити: від 128 000 до 1 мільйона токенів. Мільйон токенів еквівалентний приблизно 700 000 слів або приблизно 30 000 рядків коду — це приблизно в чотири рази більше даних, ніж обробляє флагманська модель Anthropic, Claude 3, і приблизно у вісім разів більше, ніж GPT-4 Turbo max від OpenAI.
Gemini 1.5 Pro буде доступна в передогляді на Vertex AI — новій платформі-конструкторі, де бізнес-клієнти Google зможуть створювати власних чатботів.
Модель генерації тексту в зображення Imagen 2 також отримала оновлення — і тепер пропонує функції «inpainting» та «outpainting», які дозволять користувачам додавати або видаляти елементи з зображень. Усі зображення, згенеровані нейромережею, також можуть отримати позначку SynthID — невидимий водяний знак, який позначає походження картинки.
Джерело: The Verge, Techcrunch