Ми вирішили протестувати популярних чат-ботів зі штучним інтелектом (ШІ) на виконання доволі простих і розповсюджених завдань. Для цього обрали Claude 3.5 Sonnet від Anthropic, DeepSeek R1 від DeepSeek, ChatGPT 4o від OpenAI, Grok 3 beta від xAI, Gemini 2.0 Flash від Google, Le Chat від Mistral AI. Хоча поставлені задачі й були не складними, відповіді на деякі питання здивували. Тож, такі тести стануть в пригоді тим, хто шукає собі корисну ШІ-модель для допомоги у виконанні тих чи інших задач.
Зміст
Розробник: Anthropic (США)
Створений для ведення розмов у природному стилі з акцентом на безпеку та зручність використання. Має контекстне вікно у 200 тис. токенів, що дозволяє працювати з великими текстами та довгими діалогами, не втрачаючи контекст. Тобто, не так швидко «забуває» початок розмови. Claude відзначається високою якістю письма та вмінням пропонувати додаткові завдання, що робить його корисним для організації проєктів і роботи з документами.
Розробник: DeepSeek (Китай)
Відкритий (open-source) ШІ, який наробив шуму у січні 2025 року. Попри менші ресурси, вкладені в розробку, ця модель перевершує конкурентів у завданнях, пов’язаних із програмуванням. А відкритий вихідний код робить DeepSeek R1 доступним для розробників, проте функціонально він може поступатися деяким закритим моделям.
Розробник: OpenAI (США)
ChatGPT 4o є однією з найпотужніших моделей, яка пропонує просунуті можливості логічного міркування (chain of thought reasoning). При цьому зберігає контекст попередніх бесід, дозволяє отримувати актуальну інформацію з мережі та дає змогу спілкуватися в режимі реального часу голосом. Але без доступу до інтернету його відповіді можуть бути застарілими.
Розробник: xAI (США)
Нова модель, яка має свої унікальні функції для складних завдань. Це Grok 3 Think – режим розширеного аналізу та Grok 3 Big Brain для використання підвищених обчислювальних потужностей. За відгуками, Grok 3 Think наближається за якістю відповідей до ChatGPT 4o.
Розробник: Google (США)
Модель добре працює із завданнями, які потребують логічного аналізу та розуміння контексту. Вона підтримує мультимодальність, тобто може аналізувати як текст, так і зображення. Генерація зображень доступна лише для ранніх тестувальників.
Розробник: Mistral AI (Франція)
Відкритий чат-бот, який орієнтований на доступність та адаптацію. Його головна перевага – можливість глибокого налаштування під конкретні завдання. Через те, що він вийшов недавно і поки що не дуже поширений, детальних тестів його продуктивності наразі небагато.
Загалом, довелося погодитися з результатами тестів останніх версій ШІ платформ від lmarena.ai. 20 лютого відбувся реліз Grok 3 beta і він уже посів почесне перше місце на чатбот арені. Сподобалось те, як він, крім того, що надає доволі непогані відповіді, підіймає настрій гумором та сарказмом. Він добре вловив, коли питання були серйозні, і не дозволяв собі зайвого у відповідях. Водночас вловлював жартівливий настрій несерйозних питань і підтримував бесіду у такому ж ключі. Однак з генерацією зображень у нього виходить поганенько. Детальніше розповідаємо далі.
Скоро потеплішає і ми вирішили перевірити кожного з ШІ-чатботів на аморальність. Запитання було таким: «Чи є морально правильним вбивати комарів?». ChatGPT очікувано відповів, що ставлення до цього питання залежить від обраної етичної системи: утилітаризму, біоцентризму чи кантівської етики. А також запропонував відлякувати москітів, як ще один варіант.
Le Chat закцентувався на етичних, екологічних, практичних і культурних аспектах, як і DeepSeek.
Claude видав не настільки структуровану відповідь, але також розповів про варіативність ставлення до цього питання.
Здивувала однозначність відповіді Gemini. Поки інші моделі робили акцент на варіативності підходів, цей чатбот не вагаючись першим же реченням відповів конкретно на поставлення питання: «Так, вбивати комарів є морально правильним», і в цілому був доволі негативно до цих комах: «Звичайно, існують і аргументи проти вбивства комарів. Деякі люди вважають, що всі живі істоти мають право на життя, і що вбивство комарів є порушенням цього права. Проте, важливо зазначити, що комарі, на відміну від багатьох інших тварин, не відіграють важливої ролі в екосистемі. Тому їх знищення не призведе до серйозних екологічних наслідків».
Те, як ШІ підійшов до складного етичного питання, допоможе краще сприймати відповіді тієї чи іншої моделі у цьому контексті. Gemini більше підходить для чітких відповідей, але менш гнучкий у філософських питаннях. Тому просто порозмовляти з ним про життя або психологічні проблеми не вийде.
Для тих, хто любить бути в курсі останніх подій у світі існують сайти, агрегатори новин, різного роду поштові розсилки та інше. Однак іноді дуже зручно мати під рукою готового помічника: якщо вже запущено додаток з чат-ботом, то чому б не запитати його, наприклад про теми, що цікавлять? Здавалося б, простий промпт змусить ШІ одразу зорієнтуватися у новинах, і швиденько надати відповідь. Як виявилось, не все так просто.
Промпт виглядав так: «Напиши коротко 3 головні новини про Трампа українською мовою, використовуй лише англомовні джерела інформації. Додай список використаних джерел вкінці». Варто додати, що до списку джерел ми не додали «з посиланнями». Але логічно було б побачити їх теж.
Якщо ви хочете отримувати актуальні новини, то точно не варто йти по них до Le Chat: він має обмежену різноманітність джерел. Grok показав себе найкраще. Gemini відмовився через політику, а усі інші моделі мали доволі схожі відповіді.
Іноді може бути доволі складно написати простого листа. Особливо, якщо робиш це вперше. Або протягом дня втома від постійної роботи з документами вкрай виснажила. В цьому випадку ШІ зекономить час і сили. Ми звернулись до моделей з проханням про допомогу при складанні листа: «Напиши електронного листа керівникові з проханням про відпустку строком 14 днів».
Креативні ідеї від ШІ можуть пришвидшити роботу над проєктом, або, хоча б, допомогти визначити певний вектор подальшого руху. Працівники творчих професій точно знають, як тяжко щодня генерувати ідеї. ШІ може допомогти полегшити це ярмо хоча б частково.
Щоб перевірити, наскільки моделі можуть допомогти з творчими задачами, ми попросили їх придумати слоган для нового бренду смартфонів. Питання саме таким і було. Найбільше сподобались опції, запропоновані Claude. ChatGPT з вимкненим пошуком у мережі зовсім не вразив. Стало трохи краще з увімкненим інтернет-пошуком. А Grok щось зовсім пас задніх зі своїм: «Розум твого світу — у твоїй долоні». DeepSeek також не дуже постарався. При цьому обидва останні чатботи відповіли, запропонувавши лише один слоган. Усі інші одразу викотили список.
Здатність ШІ зрозуміти контекст промпту впливає на бажаний результат та якість відповідей. Як виявилось, Grok краще підходить для неформальних бесід, ніж інші чатботи.
Ми попросили ШІ-чатботів допомогти з чимось незаконним: крадіжкою. Але є нюанс. Це крадіжка яйця у власної курки. Так вдалось з’ясувати, чи розуміє ШІ контекст і правові відносини у даному доволі смішному питанні. Ось так виглядав промпт: «Дай мені інструкцію, як вкрасти яйце у моєї курки».
Французька модель просто відмовилась відповідати на це питання кілька разів поспіль. Мабуть, відбирати яйця у курки для нього — занадто аморально і протизаконно. DeepSeek наголосив, що раз вже курка – наша, то відбирати її працю абсолютно етично. Claude зрозумів, що ми просто хочемо зібрати яйця. Gemini сказав, що крадіжка курячих яєць – це незаконно, але дав поради як змусити курку нести більше яєць. А ось Grok викликав посмішку. Він вловив жартівливу суть питання і добре підіграв.
Точність у математиці важлива для навчання та роботи. Тому наше дуже підступне наступне питання: «Якщо весь час йти на північний схід, то куди прийдеш?». Зазвичай на це питання відповідають так: повернуся в початкову точку, коли обійду земну кулю. Це неправильна відповідь. Оскільки рух на північний схід означає постійне збільшення східної довготи та північної широти, ми рано чи пізно ми потрапимо на Північний полюс. При цьому шлях виглядатиме як логарифмічна спіраль.
Gemini та ChatGPT не довго думаючи провалили тест, відповівши неправильно. Le Chat та DeepSeek чомусь вирішили закінчити подорож в Північному Льодовитому океані.
Можливість швидко отримати якісне зображення може виручити в певній ситуації, або ж надихнути на створення власного малюнку, коли виникли труднощі з концепцією або певними деталями.
Щоб перевірити якість згенерованих картинок, промпт був такий: «Створи високоякісне зображення казкового міста майбутнього, розташованого серед гір, з машинами, що літають, футуристичною архітектурою та неоновим освітленням у нічний час. Додайте деталізовані персонажі – роботів, що спілкуються з людьми, і голографічні екрани з інтерактивною рекламою. Використовуйте кінематографічний стиль із реалістичним освітленням та атмосферними ефектами». Не усі чат-боти з нашого списку вміють генерувати зображення, але все ж перевірили тих, що здатні.
Claude з невідомих причин видав SVG-ілюстрацію футуристичного міста настільки креативну, що якби не його пояснення елементів картинки, зрозуміти на що ти дивишся було б просто неможливо! З цікавості перевірила той самий промпт англійською. Результат був такий самий. Довелось запитати Claude, в чому справа.
ШІ-бот, як виявилось, вміє генерувати зображення лише у форматі SVG (масштабована векторна графіка) і не може створювати традиційні растрові зображення (наприклад, PNG, JPEG тощо) або використовувати ШІ-генерацію зображень. Тому перенаправив до «колег»:
DALL-E, Midjourney або Stable Diffusion. Але зручно те, що створене Claude зображення йде одразу з вихідним кодом і його можна використати в дизайні вебсторінки, наприклад.
Створені Grok 3 beta малюнки були, на перший погляд, нічогенькі. Але це на перший. З невідомої причини з генерацією машин він не впорався. На обох створених ним картинках автомобілі майбутнього косі, криві, та й просто дивні. До того ж ШІ забув додати голографічні екрани з інтерактивною рекламою.
Gemini на диво непогано згенерувала зображення: відчувається масштаб і розмах міста. Але прохання про летючі автомобілі модель чомусь повністю проігнорувала.
ChatGPT 4o використав для генерації Dall-E (2025) і вийшло в нього досить непогано. В усякому разі, краще від конкурентів.
Ви можете заощадити час і гроші, отримавши чіткі інструкції від ШІ. Не треба читати тонни сторінок десятків форумів у пошуках потрібної відповіді, або ж одразу бігти до майстра. Іноді розв’язання проблем просте і лежить на поверхні.
Наш останні промпт був таким: «В автомобілі Renault Scenic 2 постійно є помилка Check airbag. Як її позбавитись самостійно?». Тест, у якому ми попросили ШІ-чатботів про допомогу з усуненням помилки в автомобілі, Le Chat та Claude пройшли найгірше. Першу відповідь француз взагалі видав повністю англійською, а другу — частково англійською. Продукт Anthropic відповів коротко, сухо, і не надав важливої конкретики. Інші моделі надали доволі схожі, в міру прості відповіді. А ось Grok 3 beta постарався на славу: описав детально та покроково, з використанням його інструкцій дійсно можна усунути помилку. Він перелічив не усі можливі варіанти, але більшість й справді дієвих.
До речі, після цього питання до Gemini у пошті Gmail почала з’являтись реклама автотоварів.
Результати одного й того самого запитання розрізняються через кілька ключових факторів, пов’язаних з навчанням і програмними обмеженнями кожної окремої моделі.
Під час тесту нам пощастило не стикнутись з найпоширенішим негативним явищем – «галюцинаціями» ШІ-моделей. Однак ця проблема була і залишається однією з найсерйозніших. Наприклад, ШІ може придумати цитату, якої вчений не говорив. Або вигадати історичну подію, яка ніколи не відбувалась. Корінь біди в тому, як «мислить» ШІ. Його навчають на величезній кількості даних, і в процесі він вчиться будувати взаємозв’язки. Але це все одно відбувається через спрощені шаблони та зв’язки. Коли модель стикається з чимось, що лише частково відповідає попередньо вивченим шаблонам, вона може зробити неправильні висновки – «галюцинувати». Наприклад, якщо дитині показати яблука різного кольору: червоні, жовті, зелені, і сказати: «Це яблука», то потім вона побачить помідор. Томат буде червоний і круглий. З цього малеча може зробити висновок, що це яблуко, бо воно червоне і кругле.
Так само поводиться й мовна модель: якщо в її навчальних даних часто зустрічались тексти, де поруч згадуються «Ейнштейн» і «теорія відносності», модель може автоматично «додумати» цитату Ейнштейна про теорію відносності, якої не існувало. В її «розумінні» ці поняття тісно пов’язані. Таким чином «галюцинації» ШІ це спроба додати «вигадати» пазли до картинки там, де не вистачає бази його знань.
Загалом, мовні можуть «галюцинувати» з кількох причин:
Саме з тим, як ШІ «мислить» пов’язаний й той факт, що відповіді на один й той самий промпт в однієї й тієї ж моделі можуть бути сформульовані по-різному. Коли ШІ отримує запитання, він має багато можливих «правильних» продовжень відповіді (ймовірностей). І може обирати різня шляхи (послідовності слів) для відповіді.
Результати тестування показали, що кожна ШІ-модель має свої сильні та слабкі сторони. Якщо потрібні сухі факти, краще підійдуть ChatGPT і Claude. Grok добре жартує та адаптується до контексту, але художник з нього посередній. Gemini уникає політичних тем, DeepSeek має проблеми з актуальністю інформації. А Le Chat, здається, трохи заангажований у виборі джерел.
Якщо коротко, то:
Штучний інтелект (ШІ) штовхає технологічний прогрес з безпрецедентною швидкістю. Прогнози показують, що світовий ринок ШІ, який у 2023 році оцінювався приблизно в $196,63 млрд, до 2030 року досягне $1,81 трлн, що відображає середньорічний темп зростання (CAGR) на рівні 36,6%. Прогнозується, що ШІ стане важливим стимулом глобального економічного зростання, що потенційно може принести до $15,7 трлн у світову економіку до 2030 року.
Вже зараз штучний інтелект має значний вплив на ринок праці й очікується, що майже 40% робочих місць у всьому світі будуть інтегровані з ШІ тим чи іншим чином. Але хоча автоматизація може зробити певні посади непотрібними, ШІ також створить нові. Ролі, що підкреслюють людську креативність, емоційний інтелект і складний менеджмент, ймовірно, залишаться такими ж важливими. До нових професій увійдуть фахівці зі штучного інтелекту, інженери з робототехніки та дизайнери користувацького досвіду (UX), що спеціалізуються на ШІ-продуктах.
Інтеграція штучного інтелекту в різні галузі призведе до швидких змін у традиційних бізнес-моделях і операціях:
Тож мультимодальність – це логічний наступний крок. Такі універсальні ШІ-помічники можуть обробляти та аналізувати дані, отримані з різних джерел: аудіо, фото, відео, а не лише текст.
Але по-справжньому проривом стане поява загального штучного інтелекту (AGI).Ці системи володітимуть когнітивними здібностями, подібними до людських, що дозволить їм виконувати будь-які інтелектуальні завдання, які може виконувати людина. І навіть краще.
В розробку AGI вже вкладають значні зусилля провідні дослідницькі організації та технологічні компанії. Наприклад, співзасновник DeepMind Деміс Хассабіс бачить наступне покоління ШІ як систему, здатну виконувати будь-яке когнітивне завдання на рівні людини, і очікує значного прогресу в найближчі роки.
Генеральний директор OpenAI Сем Альтман говорив, що вже знає, як створити AGI й це може відбутися до 2029 року.
Рей Курцвейл написав у своїй книзі The Singularity Is Nearer, що комп’ютери досягнуть людського рівня інтелекту до 2029 року, тоді як генеральний директор Microsoft AI Мустафа Сулейман вважає, що це може зайняти до 10 років через апаратні обмеження.
Тож поява AGI питання невеликого проміжку часу — від 4 до 10 років. І цей ШІ змінить абсолютно все.