Искусственный интеллект (ИИ) давно перестал быть исключительно темой научно-фантастической литературы. Наши жизни разделились на до и после того, как в конце ноября 2022 года компания OpenAI представила ChatGPT (от англ. Generative Pre-trained Transformer, что переводится как «генеративный предварительно тренированный трансформер»). Генеративный ИИ, такой как ChatGPT, зданий создавать любые тексты, фотографии, видео, аудио, и другие типы данных на основе информации, на которой его предварительно обучали.
Этот прорыв стал лишь началом большой волны изменений. В конце прошлого года начал набирать обороты новый тренд, связанный с ИИ — в нашу жизнь с невероятной скоростью ворвались ИИ-агенты. О них говорят все и везде, как в свое время это было и с генеративным искусственным интеллектом.
Содержание
Одно и то же чат-боты и ИИ-агенты? Нет. Чат-боты — это просто «автоответчики». Вы задаете вопрос — они дают ответ. Но их работа заканчивается, как только они выполнили задание. Автономные ИИ-агенты, напротив, работают над достижением более сложной цели. Представьте, что вы можете нанять ИИ-агента, чтобы он учился вместо вас: освоил новый язык, проанализировал финансы или даже играл вместо вас в видеоигры. И приправить все это вашей виртуальной копией с вашим голосом.
На выставке CES 2025 ИИ-агенты были самой горячей темой. Например, Nvidia представила ИИ-напарника, который будет помогать игрокам PUBG.
Также компания объявила о запуск персонального ИИ-суперкомпьютера под названием Project Digits в мае. Сердцем Digits станет новый чип GB10 Grace Blackwell, который имеет достаточную вычислительную мощность для запуска сложных моделей искусственного интеллекта, и при этом он достаточно компактен, чтобы поместиться на столе и работать от стандартной розетки. Digits может работать с моделями искусственного интеллекта с 200 миллиардами параметров, а его стартовая цена составляет $3 тыс.
Производитель игрового оборудования и периферии Razer представил Project Ava. Этот ИИ-агент сделает из рядового геймера имбу: например, поможет со сложными головоломками, боссами и квестами.
Технологический стартап Natura Umana показал наушники Humanpods — беспроводную гарнитуру, которая дает пользователям доступ к помощи искусственного интеллекта. Разработанная компанией операционная система Nature OS позволяет пользователю голосом общаться с собственными агентами на основе LLM под названием «AI People».
На основе устного запроса пользователя Nature может назначить различных AI People для решения конкретной потребности: выполнять роль терапевта, фитнес-тренера или туристического гида. Пользователи также могут получить доступ к другим LLM, таким как ChatGPT, Gemini и Claude, без необходимости открывать какие-либо приложения или даже касаться своего мобильного телефона.
ИИ-агент Runner H обещает автоматизировать сложные, громоздкие, многошаговые задачи без повторяющегося и ручного ввода.
Идеального ИИ-агента описывают как систему, которая может выполнять широкий спектр задач, подобно человеку-ассистенту: спланировать отпуск с учетом бюджета и предпочтений, купить все нужные билеты, сделать бронирование, добавить напоминания и составить список необходимых вещей, а также записать каждый шаг в ваш календарь. Или же проанализировать список рабочих задач и взять на себя часть задач на себя. Например, составить текст и разослать приглашения, напоминания или электронные письма
Также настоящий ИИ-агент должен быть мультимодальным, то есть, обрабатывать речь, аудио и видео. Например, в демоверсии Astra от Google пользователи могли наводить камеру смартфона на объекты и задавать вопросы агенту. Astra же отвечала на входящие запросы как текстовые, так аудио и видео.
Продвинутый агент искусственного интеллекта мог бы, например, выполнять функцию усовершенствованного бота для обслуживания клиентов. Современные боты на основе больших языковых моделей (LLM) могут только генерировать следующее вероятное слово в предложении. Но действительно автономный ИИ-агент должен самостоятельно реагировать на команды на естественном языке и выполнять задачи по обслуживанию клиентов без необходимости в постоянном наблюдении.
Например, ИИ-агент сможет анализировать электронные письма с жалобами клиентов, проверять их идентификационный номер, получать доступ к базам данных, таким как управление взаимоотношениями с клиентами (CRM) и системы доставки, чтобы проверить, является ли жалоба законной, и обработать ее в соответствии с политикой компании.
Исследователи Принстонского университета считают, что текущие ИИ-агенты должны соответствовать трем критериям:
В широком понимании, есть две категории ИИ-агентов: программные агенты (software agents) и воплощенные агенты (embodied agents):
Эти компоненты вместе дают агенту способность работать самостоятельно, выполняя задачи с помощью метода «проб и ошибок» в достижении цели.Представьте, что вы дали агенту задание «найти полезную информацию о Facebook» полезную информацию. В таком случае вот что он сделает:
Генеральный директор и основатель ИИ-стартапа Imbue Канцзюнь Цю сравнил текущее состояние ИИ-агентов с тем, в котором находились самоуправляемые автомобили 10 лет назад. Они могут делать разные вещи, но ненадежны и еще не совсем автономны. Поэтому люди все еще должны принимать активное участие в процессе.
«Мы еще очень далеки от того, чтобы иметь агента, который сможет автоматизировать всю работу за нас. Текущие системы «галлюцинируют, а также не всегда точно выполняют инструкции», — сказал Фан.
Еще одно ограничение заключается в том, что через некоторое время ИИ-агенты «забывают», над чем они работают. ИИ-системы ограничены своими контекстными окнами, то есть количеством данных, которые они могут принять во внимание в любой момент времени.
Для воплощенных агентов, таких как роботы, существует еще больше ограничений. Для их обучения не хватает учебных данных, а исследователи только начинают использовать возможности фундаментальных моделей в робототехнике. Поэтому, несмотря на весь хайп, стоит помнить, что исследования ИИ-агентов находятся на очень ранних стадиях, и, вероятно, пройдут годы, прежде чем проявится их полный потенциал.
Компания Oracle выделяет следующие типы ИИ-агентов, которые можно применять в различных сферах:
Создание ИИ-агента может быть сложной, но увлекательной задачей. Необязательно иметь глубокие навыки программирования, но все же надо иметь хотя бы базовое понимание работы алгоритмов искусственного интеллекта и разработки под конкретный сценарий использования. Создание ИИ-агента предполагает сочетание технических и стратегических навыков. В традиционных условиях для создания ИИ-решений нужны навыки:
Минимум скилов нужно разве что при использовании no-code платформ, как Relay.app, Bubble.ai, Voiceflow или Tars.
Маргарита Лангенбах, PhD, Senior Data Scientist:
«Интеллектуальными агентами называют очень разные вещи — от ботов в службах поддержки до ассистентов вроде Operator от OpenAI. В общем, агент — это система, которая может самостоятельно выполнять сложные задачи и принимать решения, используя доступные инструменты для достижения поставленных целей.
Эффективное внедрение агентов требует нескольких ключевых компонентов:
Модель. Основой системы является выбранная модель. В современной практике это преимущественно генеративные языковые модели (LLM, такие как GPT), но могут быть и другие подходы. Например, узкоспециализированные модели для выбора оптимального решения среди нескольких вариантов (вроде автономной системы управления состоянием пациента в больнице; такая система мониторит информацию о состоянии пациента и в случае необходимости принимает решение о напоминании о приеме лекарств или вызове бригады помощи). Здесь важно учитывать специфику задачи, чтобы выбрать модель, которая максимально соответствует требованиям. Иногда агентами считают также системы без моделей, где варианты поведения прописаны алгоритмом.
Набор инструментов. Инструменты, которые агент может использовать, обеспечивают его функциональность. Это могут быть:
готовые решения: no-code или low-code платформы, которые предлагают базовые функции и шаблоны для быстрой настройки. Сейчас определенный ограниченный набор функций уже часто доступен прямо через API провайдеров языковых моделей (тот же OpenAI имеет раздел о том, как делать запросы с использованием инструментов).
Кастомные инструменты: специально разработанные скрипты или программы для нестандартных задач. Например, если нужно, чтобы агент автоматически искал вакансии на LinkedIn и рассылал резюме, разработчик создает соответствующий набор скриптов для сбора данных и автоматизации процесса.
Также важны корректно сформулированные промти. Если агент работает на основе языковой модели, важно создать точные и понятные инструкции (промты), которые определяют, что именно должна делать система в каждой конкретной ситуации. Качественные промты позволяют агенту выполнять задачу с первого раза без лишних уточнений или ошибок.
Построение эффективного агента — баланс между технической инфраструктурой, инструментарием и точными инструкциями. Это позволяет не только достичь желаемого результата, но и обеспечить гибкость и адаптивность системы к новым задачам».
Возьмем один из самых простых примеров: создание личного ИИ-помощника для общения в Telegram с использованием модели GPT3/4 N8N — хороший вариант для начинающих, поскольку иметь бэкграунд программиста не обязательно. Для этого используются Telegram trigger и Telegram node.Процесс состоит из трех этапов:
После регистрации бота начинается работа над его функционалом. Если вы создаете ИИ-помощника самостоятельно, финансовые вложения будут незначительными. Главное, сделать бот доступным 24/7. А это значит, что его где-то нужно разместить. Простая версия ИИ-агента обойдется около $5 в месяц за низкоуровневый VPS. Если же бот станет чрезвычайно популярным, то придется рассмотреть необходимость дополнительных вычислительных мощностей или заплатить коммерческой платформе для создания ботов.
Для этого делаем следующие шаги:
Далее переходим к созданию ИИ-бота, который умеет естественно реагировать с помощью эмодзи, обрабатывать неподдерживаемые команды и предоставлять сообщения об ошибках. Также наш бот сможет создавать и отправлять изображения, сгенерированные DALL-E 2.Вы можете выбрать облачную версию n8n (цена составляет от $20 в месяц). Для этого зарегистрируйтесь на платформе OpenAI и получите новый API-ключ. Если же вы решили самостоятельно хостить n8n, не забудьте про переменную окружения `EXECUTIONS_PROCESS` на значение main.
Разделим рабочий процесс бота на три основные части. Первая часть получает входящие сообщения из Telegram и выполняет подготовительные действия:
Эта информация позволяет боту приветствовать пользователей по имени и учитывать их язык общения.Переменная bot_typing нужна для того, чтобы показывать сообщение, что бот «печатает» ответ, пока работает над запросом. Сообщение зависит от того, начал ли пользователь свое сообщение командой /image (для запроса изображения) или нет. Это добавляет интерактивности и создает впечатление, что бот активно работает.
Model_temperature сохраняет значение «температуры». Чем выше значение, тем «креативнее«ответы генерирует модель. Например, низкая температура обеспечивает более точные и предсказуемые ответы, а высокая — добавляет вариативности.Переменная token_length ограничивает длину ответа, который генерирует модель GPT. Это помогает контролировать объем текста, отправляемого пользователю, и избегать слишком длинных ответов.
Действие Send typing использует значение переменной bot_typing с JSON, чтобы показать пользователю анимацию, что бот «печатает» ответ. Также можно увидеть узел Merge. Он настроен в режиме ChoseBranch, чтобы передать исходный JSON из настроек на следующие этапы. Это простой прием, который гарантирует, что действие Send typing завершается до того, как начнутся следующие шаги.
На этом этапе бот обрабатывает данные пользователя и направляет их к одной из трех моделей генеративного искусственного интеллекта, в зависимости от типа запроса. То есть, к GPT (если это текст), или к DALL-E 2 (если это изображение).
Бот анализирует запрос пользователя, чтобы определить, какую модель следует использовать. Для этого используется узел Switch (CheckCommand), который перенаправляет запросы к соответствующей модели. Настройка узла Switch: первые три правила маршрутизации касаются корректных запросов и передаются либо в модель GPT, либо в DALL-E 2. Последнее правило — резервный вариант для запросов, которые не поддерживаются.
Примеры маршрутизации:
После того как модели OpenAI возвращают определенный ответ (текстовое сообщение или изображение), нам нужно передать эту информацию обратно пользователю. Кроме того, нам нужно подготовить общий ответ для неподдерживаемых команд. Как видно, Text Reply подключен к обоим узлам OpenAI. Это небольшая хитрость в n8n для уменьшения избыточности рабочего процесса Send Image передается через URL-адрес, который возвращается из Create Image.
Наконец-то, Send error message возвращает обобщенный ответ. Таким образом, мы не вызываем никакой модели OpenAI и предоставляем немедленный ответ, например, сообщение об ошибке.
С использованием n8n также можно сделать личного помощника для работы с календарем и отправки почтовых писем. Подробная информация видеоинструкция вот здесь.
ИИ-агенты активно меняют мир, интегрируясь в рабочие процессы, трансформируя бизнес и развлечения. Компания OpenAI прогнозирует появление первых AGI-агентов, которые смогут выполнять комплексные задачи автономно. Сатья Наделла, генеральный директор Microsoft, заявивший, что традиционные бизнес-приложения уступят место интегрированным платформам с ИИ как двигателем.
ИИ-агенты уже трансформируют гейминг, выступая в качестве обучающих партнеров, союзников или NPC с процедурной генерацией контента. Например, в играх с открытым миром, таких как Red Dead Redemption 2, NPC помнят прошлые встречи с игроком и реагируют соответственно, создавая захватывающую динамику. Кроме того, ИИ-агенты способны на качественную процедурную генерацию контента (рельеф и ландшафты, квесты и миссии, предметы и лут, дизайн персонажей и т.д.).
No Man’s Sky искусственный интеллект создает целые вселенные с уникальными планетами, существами и экосистемами, предлагая почти безграничные возможности для исследования.
Агенты искусственного интеллекта могут анализировать поведение игрока в режиме реального времени, чтобы динамически менять сложность игры. В Resident Evil 4 используют адаптивные системы сложности, чтобы тонко подстраивать поведение врага и доступность предметов в зависимости от уровня игрока.
ИИ-агенты на крипторынке сейчас настолько популярнычто за несколько месяцев рыночная капитализация связанных с ними токенов выросла до $15,7 млрд и за прогнозы CoinMarketCap, к концу 2025 года может достичь $250 млрд.
В Web3 ИИ-агенты обеспечивают децентрализованное управление активами, трейдинг и создание «умных экономик«. Они анализируют тренды, предлагают прозрачность и финансируются через токенизированные модели.
Например, Degen Spartan AI объединяет данные соцсетей с рыночными трендами, что открывает новые бизнес-модели. No-code платформа AlchemistAIapp уже позволяет самостоятельно создавать ИИ-агентов. А мультиагентный протокол координации Questflow повышает производительность путем интеграции возможностей нескольких агентов.
Виртуальные инфлюенсеры, как Miquela Sousa, привлекают миллионы подписчиков в соцсетях, генерируя контент и взаимодействуя с аудиторией. Такие агенты способны автоматизировать маркетинговые кампании, анализировать настроения и улучшать собственную эффективность.
ИИ-агенты персонализируют учебные процессы, разрабатывают индивидуальные планы и обеспечивают доступ к реальным симуляторам. В медицине они поддерживают диагностику, мониторинг состояния пациентов через IoT и помогают врачам в принятии решений. В маркетинге же они автоматизируют таргетированные кампании на основе поведенческих данных пользователей.
ИИ-агенты обеспечивают автономное управление транспортом. Например, новый Mercedes CLA с операционной системой следующего поколения MB.OS получил обновленного виртуального помощника MBUX от платформы Automotive AI Agent от Google Cloud. Виртуальные ассистенты, такие как OpenAI Operator, выполняют задачи вроде бронирования, заполнения форм и заказа продуктов, интегрируясь в веб-среды.
В бизнесе ИИ-агенты анализируют данные, оптимизируют процессы и предлагают мультиагентные решения, которые работают над такими общими целями, как логистика или производственные планы. В HR-сфере агенты автоматизируют подбор кадров, обучение и адаптацию сотрудников, а также помогают соискателям найти идеальную позицию, как это делает Робин от Ампли.
Будущее ИИ-агентов
К 2025 году ожидается развитие мультимодальных агентов, которые будут работать с текстом, изображениями и аудио. Их интеграция с IoT обеспечит контроль умных домов и промышленного оборудования, а появление AGI позволит создавать системы, которые понимают контекст и самостоятельно обучаются.
ИИ-агенты меняют мир вокруг с беспрецедентной скоростью. Они облегчают жизнь, открывают новые возможности, но одновременно поднимают вопросы, касающиеся этики, безопасности и влияния на человеческое общество. Виртуальные друзья, финансовые советники, любовники и даже психологи… Но вместе с перспективами появляются серьезные этические, безопасностные и социальные вызовы.
ИИ-агент или ассистент это сложная, но программа. И как любая программа она может быть взломана. В 2024 году уже были случаи, когда виртуальные ассистенты становились лазейками для хакеров. Кроме того, компании могут использовать ваши данные для целей, о которых вы не догадываетесь (например, для таргетированной рекламы или продажи третьим сторонам). Например, Amazon призналась, что Alexa сохраняет разговоры пользователей. Поэтому важно использовать сервисы, которые предлагают прозрачность данных и возможность удалить их (например, GDPR-регулируемые). Регулярно проверять настройки конфиденциальности в своих приложениях.
ИИ-агенты способны выполнять многие задачи, но все еще имеют технологические ограничения, которые сложно преодолеть. Однако ожидается, что к 2030 году около 30% рутинных профессий (кассира, администратора, графические дизайнеры, оператора колл-центра) будут автоматизированы ИИ. 41% мировых компаний планируют сокращать штат, пишет CNN. С другой стороны, это приведет к появлению новых профессий, таких как «тренер ИИ» или «архитектор данных». Поэтому важно держать руку на пульсе технологий, поскольку есть риск остаться без работы.
Готовы заплатить за ИИ-друга, психолога или любовницу? В последнее время появляется все больше сервисов, где люди платят за эмоциональную поддержку, дружбу или даже виртуальные «романтические«отношения с ИИ. Этот тренд вызывает немало споров. С одной стороны, ИИ-психологи, такие как Woebot или Replika могут помогать людям с социальной тревожностью, депрессией или стрессом, обеспечивая доступность поддержки 24/7. Стоить такая услуга будет дешевле, чем реальный психолог. И доступна в любое время суток. Но это может вызвать у пользователя эмоциональную зависимость. Кроме того, ИИ не способен полностью понять эмоции человека и может предлагать стандартные или даже вредные в определенном конкретном случае советы.
Люди могут «обучать«ИИ токсичным или даже опасным сценариям поведения, что поднимает вопрос контроля. Существует риск того, что люди начнут избегать сложных разговоров или конфликтов, общаясь только с «идеальными» ИИ-друзьями и любовниками. А подростки начнут вообще терять навыки социализации.
Еще один важный аспект — психологическое воздействие на пользователей. Общение с ИИ может создавать иллюзию близости или глубокой связи, хотя на самом деле это просто алгоритм, запрограммированный на имитацию человеческих реакций. Люди могут начать воспринимать виртуальные отношения как равноценные реальным, что приведет к эмоциональной изоляции.