Штучний інтелект (ШІ) давно перестав бути виключно темою науково-фантастичної літератури. Наші життя розділились на до і після того, як в кінці листопада 2022 року компанія OpenAI представила ChatGPT (від англ. Generative Pre-trained Transformer, що перекладається як «генеративний попередньо тренований трансформер»). Генеративний ШІ, такий як ChatGPT, зданий створювати будь-які тексти, світлини, відео, аудіо, та інші типи даних на основі інформації, на якій його попередньо навчали.
Цей прорив став лише початком великої хвилі змін. Наприкінці минулого року почав набирати оберти новий тренд, пов’язаний з ШІ – в наше життя з неймовірною швидкістю увірвались ШІ-агенти. Про них говорять усі й всюди, як свого часу це було й з генеративним штучним інтелектом.
Зміст
Чи одне й те саме чат-боти та ШІ-агенти? Ні. Чат-боти – це просто «автовідповідачі». Ви ставите питання – вони дають відповідь. Але їхня робота завершується, як тільки вони виконали завдання. Автономні ШІ-агенти, на відміну від цього, працюють над досягненням складнішої мети. Уявіть, що ви можете найняти ШІ-агента, щоб він навчався замість вас: освоїв нову мову, проаналізував фінанси або навіть грав замість вас у відеоіграх. І приправити все це вашою віртуальною копією з вашим голосом.
На виставці CES 2025 ШІ-агенти були найгарячішою темою. Наприклад, Nvidia представила ШІ-напарника, який допомагатиме гравцям PUBG.
Також компанія оголосила про запуск персонального ШІ-суперкомп’ютера під назвою Project Digits у травні. Серцем Digits стане новий чип GB10 Grace Blackwell, який має достатню обчислювальну потужність для запуску складних моделей штучного інтелекту, і при цьому він досить компактний, щоб поміститися на столі та працювати від стандартної розетки. Digits може працювати з моделями штучного інтелекту з 200 мільярдами параметрів, а його стартова ціна становить $3 тис.
Виробник ігрового обладнання та периферії Razer представив Project Ava. Цей ШІ-агент зробить з пересічного геймера імбу: наприклад, допоможе зі складними головоломками, босами та квестами.
Технологічний стартап Natura Umana показав навушники Humanpods — бездротову гарнітуру, яка дає користувачам доступ до допомоги штучного інтелекту. Розроблена компанією операційна система Nature OS дозволяє користувачу голосом спілкуватися з власними агентами на основі LLM під назвою «AI People».
На основі усного запиту користувача Nature може призначити різних AI People для вирішення конкретної потреби: виконувати роль терапевта, фітнес-тренера або туристичного гіда. Користувачі також можуть отримати доступ до інших LLM, таких як ChatGPT, Gemini й Claude, без необхідності відкривати будь-які додатки або навіть торкатися свого мобільного телефону.
ШІ-агент Runner H обіцяє автоматизувати складні, громіздкі, багатокрокові завдання без повторюваного і ручного введення.
Ідеального ШІ-агента описують як систему, яка може виконувати широкий спектр завдань, подібно до людини-асистента: спланувати відпустку з огляду на бюджет і вподобання, купити всі потрібні квитки, зробити бронювання, додати нагадування і скласти список необхідних речей, а також записати кожен крок у ваш календар. Або ж проаналізувати список робочих задач і взяти на себе частину завдань на себе, наприклад, скласти текст та розіслати запрошення, нагадування або електронні листи.
Також справжній ШІ-агент мусить бути мультимодальними, тобто, обробляти мову, аудіо та відео. Наприклад, у демоверсії Astra від Google користувачі могли наводити камеру смартфона на об’єкти та ставити запитання агенту. Astra ж відповідала на вхідні запити як текстові, так аудіо та відео.
Просунутий агент штучного інтелекту міг би, наприклад, виконувати функцію вдосконаленого бота для обслуговування клієнтів. Сучасні боти на основі великих мовних моделей (LLM) можуть лише генерувати наступне ймовірне слово в реченні. Але дійсно автономний ШІ-агент мусить самостійно реагувати на команди природною мовою і виконувати завдання з обслуговування клієнтів без необхідності у постійному нагляді.
Наприклад, ШІ-агент зможе аналізувати електронні листи зі скаргами клієнтів, перевіряти їхній ідентифікаційний номер, отримувати доступ до баз даних, таких як управління взаємовідносинами з клієнтами (CRM) та системи доставлення, щоб перевірити, чи є скарга законною, і обробити її відповідно до політики компанії.
Дослідники Принстонського університету вважають, що поточні ШІ-агенти мають відповідати трьом критеріям:
У широкому розумінні, є дві категорії ШІ-агентів: програмні агенти (software agents) та втілені агенти (embodied agents).
Ці компоненти разом дають агенту здатність працювати самостійно, виконуючи задачі через метод «спроб і помилок» у досягненні мети.
Уявіть, що ви дали агенту завдання «знайти корисну інформацію про Facebook». В такому разі ось що він зробить:
Поки що ж ШІ-агенти штучного інтелекту виконують певну роль і слідують їй: адвоката, розробника, вчителя, особистого бізнес-помічника тощо. Бо існують певні обмеження.
Генеральний директор і засновник ШІ-стартапу Imbue Канцзюнь Цю порівняв поточний стан ШІ-агентів з тим, в якому перебували самокеровані автомобілі 10 років тому. Вони можуть робити різні речі, але ненадійні та ще не зовсім автономні. Тож люди все ще повинні брати активну участь у процесі.
«Ми ще дуже далекі від того, щоб мати агента, який зможе автоматизувати всю роботу за нас. Поточні системи «галюцинують, а також не завжди точно виконують інструкції», – сказав Фан.
Ще одне обмеження полягає в тому, що через деякий час ШІ-агенти «забувають», над чим вони працюють. ШІ-системи обмежені своїми контекстними вікнами, тобто кількістю даних, які вони можуть взяти до уваги в будь-який момент часу.
Для втілених агентів, таких як роботи, існує ще більше обмежень. Для їхнього навчання бракує навчальних даних, а дослідники лише починають використовувати можливості фундаментальних моделей у робототехніці. Тож попри увесь хайп, варто пам’ятати, що дослідження ШІ-агентів перебувають на дуже ранніх стадіях, і, ймовірно, пройдуть роки, перш ніж проявиться їхній повний потенціал.
Компанія Oracle виділяє наступні типи ШІ-агентів, які можна застосовувати у різних сферах:
Створення ШІ-агента може бути складним, але захопливим завданням. Не обов’язково мати глибокі навички програмування, але все ж треба мати хоча б базове розуміння роботи алгоритмів штучного інтелекту і розробки під конкретний сценарій використання. Створення ШІ-агента передбачає поєднання технічних і стратегічних навичок. У традиційних умовах для створення ШІ-рішень потрібні навички:
Мінімум скілів потрібно хіба що при використанні no-code платформ, як Relay.app, Bubble.ai, Voiceflow або Tars.
Маргарита Лангенбах, PhD, Senior Data Scientist:
«Інтелектуальними агентами називають дуже різні речі — від ботів у службах підтримки до асистентів на кшталт Operator від OpenAI. Загалом, агент — це система, яка може самостійно виконувати складні завдання та ухвалювати рішення, використовуючи доступні інструменти для досягнення поставлених цілей.
Ефективне впровадження агентів потребує кількох ключових компонентів:
Модель. Основою системи є обрана модель. У сучасній практиці це переважно генеративні мовні моделі (LLM, такі як GPT), але можуть бути й інші підходи. Наприклад, вузькоспеціалізовані моделі для вибору оптимального рішення серед кількох варіантів (на кшталт автономної системи керування станом пацієнта у лікарні; така система моніторить інформацію про стан пацієнта і в разі необхідності приймає рішення про нагадування щодо прийому ліків або виклик бригади допомоги). Тут важливо враховувати специфіку задачі, щоб обрати модель, яка максимально відповідає вимогам. Інколи агентами вважають також системи без моделей, де варіанти поведінки прописані алгоритмом.
Набір інструментів. Інструменти, які агент може використовувати, забезпечують його функціональність. Це можуть бути:
готові рішення: no-code або low-code платформи, які пропонують базові функції та шаблони для швидкого налаштування. Зараз певний обмежений набір функцій вже часто доступний прямо через API провайдерів мовних моделей (той же OpenAI має розділ про те, як робити запити з використанням інструментів).
Кастомні інструменти: спеціально розроблені скрипти чи програми для нестандартних задач. Наприклад, якщо потрібно, щоб агент автоматично шукав вакансії на LinkedIn і розсилав резюме, розробник створює відповідний набір скриптів для збору даних і автоматизації процесу.
Також важливі коректно сформульовані промти. Якщо агент працює на основі мовної моделі, важливо створити точні й зрозумілі інструкції (промти), які визначають, що саме має робити система в кожній конкретній ситуації. Якісні промти дозволяють агенту виконувати завдання з першого разу без зайвих уточнень чи помилок.
Побудова ефективного агента — це баланс між технічною інфраструктурою, інструментарієм і точними інструкціями. Це дозволяє не лише досягти бажаного результату, але й забезпечити гнучкість та адаптивність системи до нових задач».
Візьмемо один з найпростіших прикладів: створення особистого ШІ-помічника для спілкування в Telegram з використанням моделі GPT3/4. N8N — хороший варіант для початківців, оскільки мати бекграунд програміста не обов’язково. Для цього використовуються Telegram trigger та Telegram node.
Процес складається з трьох етапів:
Після реєстрації бота починається робота над його функціоналом. Якщо ви створюєте ШІ-помічника самостійно, фінансові вкладення будуть незначними. Головне, зробити бот доступним 24/7. А це означає, що його десть потрібно розмістити. Проста версія ШІ-агента обійдеться близько $5 на місяць за низькорівневий VPS. Якщо ж бот стане надзвичайно популярним, то доведеться розглянути необхідність додаткових обчислювальних потужностей або заплатити комерційній платформі для створення ботів.
Для цього робимо наступні кроки:
Далі переходимо до створення ШІ-бота, який вміє природно реагувати за допомогою емодзі, обробляти непідтримувані команди та надаватимемо повідомлення про помилки. Також наш бот зможе створювати та надсилати зображення, згенеровані DALL-E 2.
Ви можете обрати хмарну версію n8n (ціна складає від $20 на місяць). Для цього зареєструйтеся на платформі OpenAI та отримайте новий API-ключ. Якщо ж ви вирішили самостійно хостити n8n, не забудьте про змінну оточення `EXECUTIONS_PROCESS` на значення main.
Розділимо робочий процес бота на три основні частини. Перша частина отримує вхідні повідомлення з Telegram і виконує підготовчі дії:
Тепер давайте ближче познайомимося з «Налаштуваннями».
System_command – це початковий GPT-запит, який визначає, як ваш чат-бот має себе поводити. У цьому запиті ми просимо бота бути дружнім, відповідати мовою користувача та додавати емодзі, щоб відповіді виглядали більш природними. Також ми додаємо додатковий контекст, зокрема:
Ця інформація дозволяє боту вітати користувачів за іменем і враховувати їхню мову спілкування.
Змінна bot_typing потрібна для того, щоб показувати повідомлення про те, що бот «друкує» відповідь, поки працює над запитом. Повідомлення залежить від того, чи почав користувач своє повідомлення командою /image (для запиту зображення) чи ні. Це додає інтерактивності та створює враження, що бот активно працює.
Model_temperature зберігає значення «температури». Чим вище значення, тим «креативніші« відповіді генерує модель. Наприклад, низька температура забезпечує більш точні й передбачувані відповіді, а висока – додає варіативності.
Змінна token_length обмежує довжину відповіді, яку генерує модель GPT. Це допомагає контролювати обсяг тексту, що надсилається користувачеві, та уникати занадто довгих відповідей.
Дія Send typing використовує значення змінної bot_typing із JSON, щоб показати користувачеві анімацію, що бот «друкує» відповідь. Також можна побачити вузол Merge. Він налаштований у режимі ChoseBranch, щоб передати оригінальний JSON із налаштувань до наступних етапів. Це проста техніка, яка гарантує, що дія Send typing завершується перед тим, як розпочнуться наступні кроки.
Так виглядатимуть ці сповіщення для користувача 👇
На цьому етапі бот обробляє дані користувача і спрямовує їх до однієї з трьох моделей генеративного штучного інтелекту, залежно від типу запиту. Тобто, до GPT (якщо це текст), або до DALL-E 2 (якщо це зображення).
Бот аналізує запит користувача, щоб визначити, яку модель слід використовувати. Для цього використовується вузол Switch (CheckCommand), який перенаправляє запити до відповідної моделі. Налаштування вузла Switch: перші три правила маршрутизації стосуються коректних запитів і передаються або до моделі GPT, або до DALL-E 2. Останнє правило – це резервний варіант для запитів, які не підтримуються.
Приклади маршрутизації:
Після того, як моделі OpenAI повертають певну відповідь (текстове повідомлення або зображення), нам потрібно передати цю інформацію назад користувачу. Крім того, нам потрібно підготувати загальну відповідь для непідтримуваних команд. Як видно, Text Reply під’єднано до обох вузлів OpenAI. Це невелика хитрість в n8n для зменшення надмірності робочого процесу. Send Image передається через URL-адресу, яка повертається з Create Image.
Нарешті, Send error message повертає узагальнену відповідь. Таким чином, ми не викликаємо жодної моделі OpenAI й надаємо негайну відповідь, наприклад, повідомлення про помилку.
З використанням n8n також можна зробити особистого помічника для роботи з календарем та надсилання поштових листів. Детальна відеоінструкція ось тут.
ШІ-агенти активно змінюють світ, інтегруючись у робочі процеси, трансформуючи бізнес і розваги. Компанія OpenAI прогнозує появу перших AGI-агентів, які зможуть виконувати комплексні завдання автономно. Сатья Наделла, генеральний директор Microsoft, заявив, що традиційні бізнес-додатки поступляться місцем інтегрованим платформам із ШІ як рушієм.
ШІ-агенти вже трансформують геймінг, виступаючи як навчальні партнери, союзники чи NPC із процедурною генерацією контенту. Наприклад, в іграх з відкритим світом, таких як Red Dead Redemption 2, NPC пам’ятають минулі зустрічі з гравцем і реагують відповідно, створюючи захопливу динаміку. Крім того, ШІ-агенти здатні на якісну процедурну генерація контенту (рельєф і ландшафти, квести та місії, предмети та лут, дизайн персонажів тощо).
No Man’s Sky штучний інтелект створює цілі всесвіти з унікальними планетами, істотами та екосистемами, пропонуючи майже безмежні можливості для дослідження.
Агенти штучного інтелекту можуть аналізувати поведінку гравця в режимі реального часу, щоб динамічно змінювати складність гри. У Resident Evil 4 використовують адаптивні системи складності, щоб тонко підлаштовувати поведінку ворога та доступність предметів залежно від рівня гравця.
ШІ-агенти на крипторинку зараз настільки популярні, що за кілька місяців ринкова капіталізація пов’язаних з ними токенів зросла до $15,7 млрд і за прогнозами CoinMarketCap, до кінця 2025 року може сягнути $250 млрд.
У Web3 ШІ-агенти забезпечують децентралізоване управління активами, трейдинг і створення «розумних економік«. Вони аналізують тренди, пропонують прозорість і фінансуються через токенізовані моделі.
Наприклад, Degen Spartan AI об’єднує дані соцмереж із ринковими трендами, що відкриває нові бізнес-моделі. No-code платформа AlchemistAIapp вже дозволяє самостійно створювати ШІ-агентів. А мультиагентний протокол координації Questflow підвищує продуктивність шляхом інтеграції можливостей декількох агентів.
Віртуальні інфлюєнсери, як Miquela Sousa, залучають мільйони підписників у соцмережах, генеруючи контент і взаємодіючи з аудиторією. Такі агенти здатні автоматизувати маркетингові кампанії, аналізувати настрої та покращувати власну ефективність.
ШІ-агенти персоналізують навчальні процеси, розробляють індивідуальні плани та забезпечують доступ до реальних симуляторів. У медицині вони підтримують діагностику, моніторинг стану пацієнтів через IoT і допомагають лікарям у прийнятті рішень. У маркетингу ж вони автоматизують таргетовані кампанії на основі поведінкових даних користувачів.
ШІ-агенти забезпечують автономне керування транспортом. Наприклад, новий Mercedes CLA з операційною системою наступного покоління MB.OS отримав оновленого віртуального помічника MBUX від платформи Automotive AI Agent від Google Cloud. Віртуальні асистенти, такі як OpenAI Operator, виконують завдання на кшталт бронювання, заповнення форм і замовлення продуктів, інтегруючись у вебсередовища.
У бізнесі ШІ-агенти аналізують дані, оптимізують процеси та пропонують мультиагентні рішення, які працюють над такими спільними цілями, як логістика чи виробничі плани. У HR-сфері агенти автоматизують підбір кадрів, навчання й адаптацію співробітників, а також допомагають шукачам знайти ідеальну позицію, як це робить Robin від Amply.
Майбутнє ШІ-агентів
До 2025 року очікується розвиток мультимодальних агентів, які працюватимуть із текстом, зображеннями й аудіо. Їх інтеграція з IoT забезпечить контроль розумних будинків і промислового обладнання, а поява AGI дозволить створювати системи, які розуміють контекст і самостійно навчаються.
ШІ-агенти змінюють світ довкола з безпрецедентною швидкістю. Вони полегшують життя, відкривають нові можливості, але водночас порушують питання, які стосуються етики, безпеки та впливу на людське суспільство. Віртуальні друзі, фінансові радники, коханці та навіть психологи… Але разом із перспективами з’являються серйозні етичні, безпекові та соціальні виклики.
ШІ-агент або асистент це складна, але програма. І як будь-яка програма вона може бути зламана. У 2024 році вже були випадки, коли віртуальні асистенти ставали шпаринами для хакерів. Крім того, компанії можуть використовувати ваші дані для цілей, про які ви не здогадуєтесь (наприклад, для таргетованої реклами чи продажу третім сторонам). Наприклад, Amazon зізналася, що Alexa зберігає розмови користувачів. Тому важливо використовувати сервіси, які пропонують прозорість даних і можливість видалити їх (наприклад, GDPR-регульовані). Регулярно перевіряти налаштування конфіденційності у своїх застосунках.
ШІ-агенти здатні виконувати багато завдань, але все ще мають технологічні обмеження, які складно подолати. Однак очікується, що до 2030 року близько 30% рутинних професій (касира, адміністратора, графічні дизайнери, оператора кол-центру) будуть автоматизовані ШІ. 41% світових компаній планують скорочувати штат, пише CNN. З іншого боку, це призведе до появи нових професій, таких як «тренер ШІ» чи «архітектор даних». Тому важливо тримати руку на пульсі технологій, оскільки є ризик залишитися без роботи.
Готові заплатити за ШІ-друга, психолога або коханку? Останнім часом з’являється все більше сервісів, де люди платять за емоційну підтримку, дружбу або навіть віртуальні «романтичні« стосунки з ШІ. Цей тренд викликає чимало суперечок. З одного боку, ШІ-психологи, такі як Woebot чи Replika, можуть допомогти людям із соціальною тривожністю, депресією чи стресом, забезпечуючи доступність підтримки 24/7. Коштувати така послуга буде дешевше, ніж реальний психолог. І доступна будь-коли. Але це може викликати у користувача емоційну залежність. Крім того, ШІ не здатний повністю зрозуміти емоції людини та може пропонувати стандартні або навіть шкідливі в певному конкретному випадку поради.
Щобільше, платформи на кшталт Intimate AI Girlfriend чи Linky AI пропонують «інтимну» взаємодію з ШІ за підписку. Деякі з них заробляють мільйони доларів, пропонуючи персоналізовані «романтичні» діалоги чи навіть віртуальний секстинг. Але чи не знищить це реальні стосунки?
Користувачі можуть «навчати» ШІ токсичним або навіть небезпечним сценаріям поведінки, що порушує питання контролю. Існує ризик того, що люди почнуть уникати складних розмов або конфліктів, спілкуючись тільки з «ідеальними» ШІ-друзями та коханцями. А підлітки почнуть взагалі втрачати навички соціалізації.
Ще один важливий аспект – психологічний вплив на користувачів. Спілкування із ШІ може створювати ілюзію близькості чи глибокого зв’язку, хоча насправді це просто алгоритм, запрограмований на імітацію людських реакцій. Люди можуть почати сприймати віртуальні стосунки як рівноцінні реальним, що призведе до емоційної ізоляції.