Google показав Project Astra — ШІ-асистента з голосовим та візуальним розпізнаванням, схожого на GPT-4o

Опубликовал
Андрій Русанов

На презентації Google I/O 2024 компанія показала віртуального помічника Project Astra зі штучним інтелектом та візуальним розпізнаванням на основі Google Gemini, який перебуває на стадії розробки. Говорячи про Astra, CEO експериментальної лабораторії DeepMind, Деміс Хассабіс розповів, що його команда завжди хотіла розробити універсального агента ШІ, який був би корисними у повсякденному житті.

Project Astra — це програма, основними інтерфейсами введення даних якої є камера та голос. Людина зі смартфоном направляла його камеру на різні частини офісу та дала Astra завдання: «Скажи мені, коли побачиш щось, що видає звук». Коли віртуальний асистент побачив динамік поруч із монітором, він відповів: «Я бачу динамік, який видає звук». Демонстратор намалював на екрані стрілку до верхнього кола на динаміку та запитав: «Як називається ця частина динаміка?». Програма миттєво відповіла: «Це твітер. Він видає високочастотні звуки».

Потім у відео, яке, за словами Google, було записане за один дубль, тестувальник підійшов до чашки з кольоровими олівцями нижче за столом та запитав «Дай мені творчу алітерацію про це», на що отримав відповідь сказав: «Креативні кольорові олівці весело забарвлені. Вони, зазвичай, створюють барвисті витвори». Далі на відео показано, як Astra ідентифікує та пояснює частини коду на монітор та повідомляє користувачеві, в якому районі він знаходиться, на основі виду з вікна. Astra змогла відповісти на запитання: «Ти пам’ятаєш, де ви бачили мої окуляри?» попри те, що вони були приховані. «Так, я знаю. Твої окуляри лежали на столі біля червоного яблука».

Онлайн-курс "Ефективні презентації в PowerPoint" від Laba.
Навчіться доносити ідеї через актуальні візуалізації.Курс зі створення презентацій, які додивлятися до кінця.Будь то sales offer, чи pitch deck.
Дізнатись більше

Після цього тестер одягнув окуляри, і відео отримало перспективу від першого лиця. Використовуючи вбудовану камеру, окуляри сканували оточення, погляд був наведений на діаграму на дошці. Людина на відео запитала: «Що я можу тут додати, щоб зробити цю систему швидшою?». Програма відповіла: «Додавання кешу між сервером та базою даних може підвищити швидкість».

Випробувач подивився на пару котів, зображених на дошці, і запитав: «Що це тобі нагадує?». Astra сказала: «Кота Шредінгера»Коли плюшеву іграшку-тигра поклали поруч з золотистим ретривером та попросили назвати цю групу, Astra відповіла «Золоті смуги».

Демонстрація доводить, що Astra не лише обробляла візуальні дані в режимі реального часу, але й запам’ятовувала побачене та працювала зі збереженою інформацією. За словами Хассабіса, це відбувалося через швидшу обробку інформації шляхом безперервного кодування відеокадрів, поєднання відео та мовного введення з часовою шкалою подій та кешування цієї інформації для ефективного використання.

На відео Astra доволі швидко реагувала на запити. Хассабіс зазначив у дописі в блозі: «Хоча ми досягли неймовірного прогресу в розробці систем штучного інтелекту, які можуть розуміти мультимодальну інформацію, скорочення часу відповіді до розмовного є складним інженерним завданням». Google також працює над наданням своєму ШІ більшого діапазону різноманіття та емоційних відтінків.

Хоча Astra залишається ранньою функцією без конкретних планів щодо запуску, Хассабіс повідомив, що в майбутньому подібні помічники можуть бути доступні у телефоні або окулярах. Поки немає інформації про те, чи стануть такі окуляри наступником Google Glass, але керівник DeepMind зауважив, що де які продемонстровані можливості стануть доступні в продуктах Google пізніше цього року.

Джерело: Engadget

Disqus Comments Loading...