Майбутнє, про яке ми мріяли: ШІ на шляху до розумних машин

Опублікував sviatoslav

Якщо ви, так само як я, любите наукову фантастику, то впродовж життя з захопленням спостерігаєте, як фантастичні ідеї письменників і сценаристів перетворюються на реальність. Молоде покоління вже росте у світі, де спілкування з машиною людською мовою — звичайна справа. Проте для тих, хто спостерігав світанок розвитку ПК — це чергова революція. Тож пропоную вам поринути в історію про те, який шлях технологій ШІ пройдено, щоб опинитись у фантастичному майбутньому.

Твори й фільми, які візуалізували представлення цифрового інтелекту

Стаття написана 18 грудня 2024 року

Пірнання в історичні глибини

Людство мріяло про “розмову” з машинами протягом більш ніж століття. Іноді здається, що письменники бачать майбутнє задовго до вчених. Такі твори, як «I, Robot» (1950) Айзека Азімова та «The Cyberiad» (1965) Станіслава Лема, уявляли природний діалог з машиною, описували світи, де машинам притаманні людські якості: вони жартують, філософствують, розв’язують задачі та навіть створюють нове. Ці образи формували футуристичне уявлення про те, як машини можуть еволюціонувати і яку роль з часом здатні взяти на себе.

Хто зна, чи було це стимулом до розвитку технологій, адже уява – один з найсильніших інструментів.

Вже в середині XIX століття азбука Морзе стала першим прикладом кодування інформації за допомогою всього двох символів (точки й тире), що заклало ідею цифрового представлення даних і підштовхнуло розвиток подальших кодових систем.

Іллюстрація @Kaiky Alvaro / medium

У XX столітті в математиці й обчислювальній техніці була сформульована двійкова система числення й логіка, які лягли в основу цифрових обчислень. В 1946 році був створений перший комп’ютер.

ENIAC, the World’s First Computer (1649)

Винахід транзистора у 1947 році радикально змінив обчислювальну техніку, зробивши можливими менші, надійніші й енергоефективніші комп’ютери та відкривши шлях до мікропроцесорів і масового використання цифрових технологій.
Вже в 1975 році світ побачив перший персональний комп’ютер ALTAIR 8800

Altair 8800 with Teletype

У 1969–1970‑х роках була створена і розширена мережа ARPANET / Internet, що протягом десятиліть перетворилась на всесвітню систему передачі даних і знань.

Перші вузли мережі ARPANET – предка Інтернету

І ось ми у XXI столітті. Навіть у бідних верств населення, в кишені лежить пристрій, який у 20 000 000 разів потужніший за Altair 8800 і водночас на 98 % менший і легший. Спільними зусиллями людства інтернет перетворився на бібліотеку всіх людських знань, по суті – віддзеркаленням того, хто і що ми є. “Підручником” для навчання штучного інтелекту. 

Шлях до цифрового нейрона

Ще задовго до ChatGPT люди вже зустрілися з передбаченням мови. У 1995 році з’явився T9, який підказував слова на кнопкових телефонах. Але це був лише механічний трюк: набір правил і таблиць, без уявлення про сенс або контекст.

Справжній рух почався у 2014 році з несподіваного місця — машинного перекладу. Мовний бар’єр виявився ідеальним полігоном для майбутнього, ще не очікуваного ШІ: тут потрібно не просто підібрати відповідне слово, а врахувати зв’язки між словами, їхній порядок і загальний зміст. Саме в цій задачі з’явився механізм уваги Attention, який дозволив моделі під час перекладу зосереджуватися на різних частинах речення залежно від контексту, а не обробляти його як єдине неподільне ціле.

Attention – це механізм, який дозволяє моделі динамічно зважувати важливість окремих елементів вхідних даних відносно поточного контексту обчислення.

Та незабаром стало зрозуміло, що окремого механізму уваги недостатньо і потрібна архітектура, в якій робота з контекстом стане центральним принципом. У 2017 році дослідники з Google запропонували таке рішення, представивши трансформер у роботі (Vaswani et al., Attention Is All You Need, 2017). Новий підхід дозволив моделі бачити весь текст цілісно, обробляти його паралельно й масштабуватися у спосіб, який раніше був неможливий. Трансформер став тим, чим колись були транзистори: інженерною ідеєю, що зрушила цілу епоху.

Трансформер – це архітектура глибокого навчання, яка завдяки механізму самоуваги дозволяє обробляти весь вхідний текст одночасно, захоплювати довготривалі залежності і масштабувати моделі значно ефективніше, ніж попередні підходи, ставши фундаментом сучасних великих мовних моделей.

OpenAI побачила потенціал першою й у 2018 році представила GPT-1 Radford et al., Improving Language Understanding by Generative Pre-Training, 2018. Ідея generative pre-training була проста, але смілива: нехай модель прочитає величезну частину текстів світу й навчиться передбачати наступне слово. А вже потім її можна “відшліфувати” під конкретні задачі.

GPT – це абревіатура від Generative Pre-trained Transformer.

У 2019 році вийшла GPT-2 (Radford et al., Language Models are Unsupervised Multitask Learners, 2019, OpenAI Technical Report), і саме вона показала несподіваний ефект масштабування. Без додаткових інструкцій модель почала виконувати нові задачі, розуміючи їх безпосередньо з контексту – цю здатність назвали zero-shot поведінкою. Важливо, що така поведінка не була закладена явно: вона виникла як emergent-властивість – результат масштабування моделі й даних, а не прямого програмування.

Emergent-властивості – це поведінки або навички моделі, які не задаються явно, але з’являються при достатньому масштабі параметрів та даних.

Zero-shot – це здатність моделі коректно виконувати задачу без попереднього навчання саме на цій задачі або класах даних, спираючись лише на раніше використані знання та узагальнення.

У 2020 році дослідники описали закони масштабування: якщо збільшувати модель, дані й обчислення у правильній пропорції, то якість ШІ зростає передбачувано. Розробка ШІ перестала бути магією і стала інженерією. На цьому тлі з’явилася GPT-3 (Brown et al., Language Models are Few-Shot Learners, 2020) на 175 млрд параметрів проти 1,5 млрд у GPT-2. Вона вже не просто продовжувала текст, а могла узагальнювати, відповідати на питання і працювати у few-shot режимі – достатньо було кількох прикладів у запиті і вона розуміла задачу без навчання.

Few-shot – це режим роботи моделі, за якого вона здатна виконувати задачу, отримавши лише кілька прикладів (зазвичай 1 – 10), без повноцінного перенавчання.

Але справжній поворот стався 30 листопада 2022 року, коли OpenAI випустила у маси ChatGPT, як експеримент без великих очікувань. Спілкування з програмою, яка відповідає як людина – спричинило фурор! За перші два місяці ChatGPT набув понад 100 млн активних користувачів, ставши найшвидше зростаючим онлайн-сервісом свого часу. В цей момент стало зрозуміло: ми більше не говоримо про автопідказки — ми говоримо про нову форму інтелектуальної взаємодії.

Після успіху ChatGPT у перегони включилися всі великі технологічні гравці – кожен зі своєю стратегією: від закритих моделей до open-source, від етики до масштабування. Але суть процесу залишилася незмінною…

То ШІ це чи ні?

Впевнений, що багато хто скаже — то ніякий не штучний інтелект! Але, для початку, подивімось що каже Вікіпедія про термін “інтелект”:

Інтелéкт (від лат. intellectus “відчуття”, “сприйняття”, “розуміння”) — це розумова здатність, яка охоплює здібності до навчання, міркування, вирішення проблем і адаптації до нових ситуацій. Це включає в себе здобуття, розуміння, збереження та застосування знань у різних сферах і демонструється через логічне мислення, креативність, абстрактне міркування та виважене прийняття рішень.

Чи може LLM навчатись? Так. Чи може міркувати? Так. Може застосовувати знання для розв’язанні задач у різних сферах через логічне мислення — Так!

Епілог

Менш ніж за десять років експериментальні мовні моделі перетворилися на інструмент повсякденного спілкування з машиною. Сьогодні межа між діалогом з людиною і діалогом з комп’ютером майже зникла, так само як у фільмах, постери яких я додав на початковій ілюстрації. Те, що колись було фантастикою, стало реальністю.

У цій статті ми торкнулися лише — лише однієї з множини революційних змін які прийшли в наше життя. Але почали ми з мови (LLM) не випадково: є думка, що мова є операційною системою людства, через яку ми навчаємося, передаємо знання, робимо наукові відкриття та координуємо колективні дії. Точка, в якій комп’ютери навчилися ефективно працювати з людською мовою як з повноцінним інструментом взаємодії (підтримувати діалог, тримати контекст і формувати змістовні відповіді, розв’язувати задачі) — стала принциповою межею, яка стрімко почала змінювати світ.

Післямова

З огляду на те, як швидко технологія нейронних мереж увійшла в наше життя і на те, як під ейфорією про AI чутно звідусіль, навіть техногіки часом відчувають роздратованість. Здається, що технологію хочуть запхати всюди, де вона треба і де не треба. Частково це обумовлено маркетингом. На мою думку, бізнес поки не до кінця розуміє сфери, де ця технологія стане новим стандартом, а де буде зайвою вагою, тож просто експериментують.

Від нас залежить, чи встигнемо ми трансформувати свої погляди й навички, щоб наздогнати майбутнє — те саме фантастичне майбутнє, яке ще вчора існувало лише в кіно, а сьогодні вже стало буденністю і розвивається швидше, ніж багато хто встигає це усвідомити.

Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.

Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.