Машинное обучение в Google: Что нового?

У компания Google в регионе EMEA (Европа, Ближний Восток и Африка) уже шесть центров, которые занимаются исследованиями в области искусственного интеллекта. Они находятся в Цюрихе (Швейцария), Тель-Авиве и Хайфе (Израиль), в Париже (Франция), Амстердаме (Нидерланды), Берлине (Германия) и в Аккре (Гана). При этом четыре последних были открыты только в этом году, что ещё раз показывает насколько серьёзно в Google относятся к этому направлению. Что нового в области искусственного интеллекта и машинного обучения за последний год произошло в Google, я расскажу в этом материале, после посещения исследовательского центра компании в Амстердаме.

Нейросети, которые научились создавать новые нейросети

«Представьте, что вам нужно запрограммировать компьютер, чтобы распознавать объекты на изображении. Он должен вам сказать, где кот, где собака, а где автомобиль. На данный момент даже лучший программист в Google не сможет запрограммировать компьютер на выполнение этой задачи с нуля. И вот где вам на помощь приходит машинное обучение» — рассказывает Оливье Буске (Olivier Bousquet), глава Google AI в Европе.

В компании называют машинное обучение новой парадигмой, при которой вместо того, чтобы программировать компьютер распознавать котов, собак или автомобили, можно собрать базу данных, где их изображения будут соответствующим образом помечены, и прогнать её через нейросеть. Последняя изначально будет делать ошибки, так как со старта ничего не знает, но получая на выходе неправильную информацию, нейросеть можно слегка модифицировать, корректируя результаты и таким способом обучая её. В итоге она научится определять объекты на изображениях, на которых учится. Но самое интересное, если прогнать через эту же нейросеть картинку не из базы данных, например новое фото собаки, то она всё-равно с большой долей вероятности сможет его распознать. В итоге получается система, которая может выполнять задачу классификации изображений, натренированная только на примерах. И таким же способом нейросети могут решать большое количество задач. Сегодня Google использует машинное обучение в почте Gmail, переводчике Google Translate, клавиатуре GBoard и в других своих продуктах, но не планирует на этом останавливаться.

Компания начала использовать поиск нейронных архитектур (Neural architecture search, NAS), чтобы автоматизировать создание моделей искусственных нейронных сетей. В этом году Google представила рекуррентную нейронную сеть AutoML, которая собственно и занимается тем, что позволяет без специальных знаний создать нейросеть для решения своих задач.

«Мы всегда хотели сделать машинное обучение доступным как можно большему количеству людей, но понимали, что ограничением является недостаточное количество экспертизы. Поэтому мы подумали, что можем использовать машинное обучение для решения и этой проблемы» — объясняет Оливье Буске — «Что мы сделали? Мы создали базу данных, где ввод — это архитектуры нейронных сетей, а вывод — это то, насколько хорошо эти модели решают определённые задачи. Дальше мы создали новую нейросеть, прогнав через неё эти данные, что позволило ей предсказывать эффективность разных архитектур, быстро их искать и создавать лучшую для необходимой задачи. Полученные модели не такие элегантные, как если бы их создавал специалист по машинному обучению, но в конце концов они справляются с поставленной задачей».

В Google уже запустили бета-версию сервиса Cloud AutoML, который позволяет создавать собственные нейросети и тренировать их для решения необходимых задач. На данный момент сервис включает такие продукты как Cloud Vision (распознавание изображений), Cloud Natural Language (анализ текста) и Cloud Translation (перевод).

В качестве примера использования Cloud AutoML в Google приводят кейс Зоологического общества Лондона (Zoological Society of London, ZSL), которое использует Cloud Vision для того, чтобы анализировать изображения, полученные с помощью фотоловушек. Сама организация занимается сохранением дикой природы, но для того, чтобы защитить животных от воздействия человека, сначала нужно определить какие виды находятся в опасности, что им угрожает и где они находятся. Для этого в ZSL используют фотоловушки, оснащённые сенсорами движения и тепла, что позволяет делать фотографии животных, а также людей, которые могут оказаться браконьерами. В прошлом сотрудники организации вручную отмечали и каталогизировали снимки, что занимало много времени. Теперь же, используя AutoML, они смогли создать собственные архитектуры нейронных сетей, которые могут определять вид животного на снимке и значительно ускорить анализ данных.

Нейросеть сама разберётся

Необходимость вручную помечать данные для тренировки нейросетей является одним из ограничений во время их обучения. Тем не менее, в некоторых случаях есть возможность автоматизировать этот процесс.

«Например, можно взять какой-нибудь большой текст из «Википедии» и создать на его основе базу данных, где ввод — это начало предложения, а вывод — это следующе после него слово. Таким образом нейросеть тренируется предсказывать какое слово будет идти после начала предложения, но в то же время в какой-то мере обучается значению слов» — рассказывает Оливье Буске.

Ещё одним примером может послужить отслеживание объектов на видео, что для компьютерного зрения довольно сложная задача. Стандартный для машинного обучения подход — это вручную отметить на видео объект, за которым нейросеть должна следить. По сути нужно сделать базу данных, где на каждом кадре видео будет отмечен необходимый объект. Но если использовать колоризацию (преобразование монохромного изображения в цветное) можно научить нейронную сеть отслеживать объекты на видео без того, чтобы их отмечать. По словам Буске для этого в качестве базы данных можно использовать чёрно-белое видео в качестве ввода, а цветное как вывод. И благодаря тому, что нейросеть учится предсказывать цвет каждого пикселя в кадре, то она также начинает отслеживать перемещение объектов, если их цвет от кадра к кадру не меняется.

Ограничения обучения с учителем и могут ли нейросети их обойти

Как уже понятно из вышеизложенного, для обучения нейросетей чаще всего необходимы данные, которые могут послужить им в качестве примера. Этот подход исследователи называют обучением с учителем, и именно он на данный момент стоит за главными успехами Google в области искусственного интеллекта. В компании даже называют его «рабочей лошадкой» машинного обучения.

Тем не менее, обучение с учителем имеет ряд ограничений:

1. Предполагает прямую демонстрацию желаемого результата;
2. Копирование демонстрации, а не креативность;
3. Результаты не улучшаются по сравнению с демонстрацией.

В качестве обхода первого ограничения Google приводят пример, когда роботу нужно научиться переливать жидкость из одного сосуда в другой. Для этого ему демонстрируют видео, в котором человек с разных ракурсов выливает «Колу» в стакан. При этом у самого робота другие условия, он должен пересыпать цветные шарики из одной чашки в другую. По сути это тоже обучение с учителем, но от компьютера, который управляет роботом требуется самостоятельно понять, какие действия нужно совершить, чтобы выполнить задачу. То есть, он во-первых должен научиться определять, что общего между разными кадрами видео и чем они отличаются, а во-вторых имитировать движение человека.

«Интересным решением данной задачи являются Time-Contrastive Networks (TCN), которые реализуются в два этапа. На первом нужно обучить нейросеть понимать, какое действие хочет выполнить демонстратор. В данном случае для этого через неё прогоняется множество видео с показом переливания разных жидкостей, в разные сосуды с разных точек обзора. Когда нейросеть научится понимать, что общего между этими видео, мы может перейти ко второму этапу и научить робота выполнять эту задачу. Для этого мы показываем ему в качестве примера одно видео с переливанием жидкости, и теперь, так как он знает как его интерпретировать, единственное, что ему остаётся — повторить моторику человека. Это можно сделать с помощью обучения с подкреплением, запоминая ошибки и действия, которые привели к положительному результату» — объясняет Тим Салиманс (Tim Salimans), старший научный сотрудник Google AI в Амстердаме.

Второе ограничение обучения с учителем приводит к тому, что компьютер копирует тот результат, который ему демонстрируют, но может ли он создавать что-то новое? Быть креативным? В Google уже некоторое время исследуют эту тему в рамках проекта Magenta, разрабатывая искусственные нейронные сети, которые учатся создавать искусство и музыку. «Мы учим ИИ на примерах, в данном случае — это разные мелодии, и ставим ему задачу интерполировать их и рекомбинировать, создавая музыку, которая похожа на вводную, но всё-таки новая. Это сравнимо с тем, как человек использует старый текст песни, но накладывает на него новую мелодию, создавая тем самым новое произведение» — рассказывает Тим Салиманс.

У Google в рамках Magenta также есть эксперимент Sketch-RNN, который позволяет начать рисунок, а нейросеть его за вас заканчивает. Например, можно попробовать нарисовать Мону Лизу, получается очень забавно.

Впрочем, это как раз вживую демонстрирует то, что нейросеть может не просто копировать, а создавать что-то новое.

Последнее ограничение обучения c учителем связано с тем, что результаты не улучшаются по сравнению демонстрацией. В этом случае на помощь приходит обучение с подкреплением, а если проще, то метод проб и ошибок.

«Возьмём для примера искусственный интеллект, который начинает учится играть в игру Montezuma’s Revenge. Это довольно сложная задача: он должен управлять персонажем, избегать врагов и находить ключ, чтобы перейти на другой уровень. Но если ИИ будет обучаться только методом проб и ошибок, то может возникнуть ситуация, при которой если попытки не удались, он получит одни ошибки и ничему не научится. Ведь если нет положительного отклика, то нет и обучающего сигнала. Поэтому мы можем использовать демонстрацию этой игры человеком, чтобы помочь ИИ с ней справиться. Это всё ещё будет обучение с подкреплением, мы будем лишь начинать игру с небольшой демонстрации, и компьютеру методом проб и ошибок нужно будет определить, как её закончить. В конце концов ИИ научится играть в игру, добиваясь максимального результата, превосходя качество демонстрации» — объясняет Тим Салиманс.

В итоге, нейросети сегодня всё ещё требуют примеров для обучения, но им уже не нужно указывать необходимый результат, они могут рекомбинировать примеры в креативный способ и превосходить демонстрации.

Favbet Tech — украинская продуктовая компания, разработчик iGaming-решений. Входит в топ-50 крупнейших IT-компаний Украины по версии DOU. Специализируется на высоконагруженных системах, облачной инфраструктуре и искусственном интеллекте. В 2025 году стала инициатором создания АИ-комитета Ассоциации «ИТ Ukrainе» — первого отраслевого объединения, занимающегося вопросами развития АИ на уровне бизнеса и государства.