Блоги
Исследователи Google Brain научили ИИ завершать эскизы пользователей

Исследователи Google Brain научили ИИ завершать эскизы пользователей

Исследователи Google Brain научили ИИ завершать эскизы пользователей


Google Brain, подразделение американского IT-гиганта, занимающееся разработками в сфере искусственного интеллекта, представили миру свое новое творение — ИИ по имени Sketch-RNN, являющий собой логическое продолжение того, что мы видели раньше.

В принципе, в его работе нет ничего сверхъестественного: алгоритм просто пытается завершить набросок пользователя. Однако то, как он это делает, на первых порах поистине завораживает.

Стоит отметить, что новоиспеченный ИИ был натренировал на тех многочисленных рисунках, которые пользователи сотворили во время игры в QuickDraw.

На данный момент Sketch-RNN существует в четырех вариациях: стандартная версия, Multiple Predict («Множественный прогноз»), Interpolation («Интерполяция») и Variational Autoencoder («Вариационный автокодер»)

Стандартная версия

Стандартная версия программы работает следующим образом. Из списка доступных объектов вы выбираете наиболее приглянувшийся, затем вас просят начать его рисовать. Как только вы делаете первые очертания, алгоритм тут же начинает пробовать завершить ваш эскиз.

Например, выберем «ананас» из выпадающего списка справа вверху и нарисуем овал. Как только мы это сделаем, ИИ моментально определит ориентацию будущего рисунка и то, что необходимо дорисовать, чтобы в итоге получился искомый фрукт:

https://i2.wp.com/cdn.vox-cdn.com/uploads/chorus_asset/file/8756415/google_ai_sketch_rnn_pineapple.gif?w=770&quality=100&strip=all&ssl=1

Впрочем, не обольщайтесь: на данном этапе алгоритм нередко дает сбои. Например, так он пытался дорисовать американские горки:

https://i2.wp.com/cdn.vox-cdn.com/uploads/chorus_asset/file/8756469/google_ai_sketch_rnn_doodle_roller_coaster.gif?w=770&quality=100&strip=all&ssl=1

Multiple Predict

В отличие от базовой версии, в режиме множественного прогноза вам единовременно демонстрируют 9 возможных вариантов окончаний вашего наброска.

https://i0.wp.com/magenta.tensorflow.org/assets/sketch_rnn_demo/img/multi_sketch_mosquito.gif?resize=728%2C360&quality=100&strip=all&ssl=1
Алгоритм рисует 9 вариаций комара одновременно.

К слову, в этом режиме при переключении объектов ваши начертания не сбрасываются. Таким образом, искусственный интеллект можно заставить рисовать самые различные объекты на основе одного-единственного эскиза.

Interpolation

Режим интерполяции подразумевает создание третьего рисунка на основе двух других. Проще говоря, это когда алгоритм пытается «усреднить» два изображения.

Впрочем, итоговый результат зачастую выглядит несуразно. Однако разработчики говорят, что здесь важен не смысл, а умение ИИ пошагово видоизменять изображения нужным образом.

https://i1.wp.com/magenta.tensorflow.org/assets/sketch_rnn_demo/img/interp.png?resize=770%2C235&quality=100&strip=all&ssl=1
ИИ «скрестил» велосипед и йогу.

Variational Autoencoder

Наконец, в Variational Autoencoder алгоритм просит вас что-либо нарисовать, а затем воссоздает стиль готового рисунка в девяти вариантах похожих изображений.

Интересно, что ИИ не пытается просто скопировать готовый эскиз — программа стремится угадать именно ваш стиль рисовки и уже на его основе сотворить что-то похожее.

https://i1.wp.com/magenta.tensorflow.org/assets/sketch_rnn_demo/img/multi_vae_cat1.gif?w=770&quality=100&strip=all&ssl=1

Напоследок отметим, что ранее в этом году сотрудники Google Brain рассказали в своем блоге, что в конечном счете они намерены разработать ИИ, который не только воссоздает объекты на виртуальном листе бумаги, но также мыслит как человек, который что-либо рисует.

Источники: The Verge, Business Insider


Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: