Новини Технології 12.05.2023 о 19:36 comment views icon

GPT-4 вивчає логіку GPT-2 у дослідженні OpenAI: творці штучного інтелекту не знають, як він працює

author avatar
https://itc.ua/wp-content/uploads/2023/11/photo_2023-11-12_18-48-05-3-96x96.jpg *** https://itc.ua/wp-content/uploads/2023/11/photo_2023-11-12_18-48-05-3-96x96.jpg *** https://itc.ua/wp-content/uploads/2023/11/photo_2023-11-12_18-48-05-3-96x96.jpg

Андрій Русанов

Автор сайту

Розділ Технології виходить за підтримки Favbet Tech

У той час як мовні моделі штучного інтелекту підкорюють сферу технологій, дослідники ШІ погано уявляють їхню роботу «під капотом». OpenAI прямо зізнається: «Мовні моделі стали більш функціональними та поширеними, але ми не розуміємо, як вони працюють».

Компанія опублікувала дослідження, у якому детально описується метод використання мовної моделі GPT-4 для пояснень поведінки нейронів старішої GPT-2. Завдання – домогтися інтерпретованості, пояснити, чому нейромережі роблять те, що роблять та створити надійні засоби контролю процесу. Забігаючи наперед, поки це не дуже виходить, але перспективи зростуть з появою досконаліших моделей.

GPT-4
Згенероване ШІ зображення роботів, котрі заглядають усередину штучного мозку

Наявність інтерпретованої моделі ШІ допомогла б досягти більш глобальної мети, яку називають «узгодженням ШІ» – гарантії, що системи поводяться так, як задумано та відображають у роботі людські цінності.

Поки що нікому не зрозуміло, як окремі елементи нейронної мережі (нейрони) взаємодіють для отримання вихідних даних. Ця проблема отримала назву «чорної скриньки». Іншими словами, не ясно, яким саме чином поставлене питання перетворюється на відповідь.

Намагаючись зазирнути всередину «чорної скриньки», OpenAI використовувала GPT-4 для створення та оцінки природномовних пояснень поведінки нейронів у менш складній моделі GPT-2. Автоматизуючи процес інтерпретації, OpenAI прагне подолати обмеження ручної перевірки людиною, котра не здатна охопити системи з мільярдами можливих параметрів. Техніка OpenAI має на меті пояснити, які шаблони тексту викликають активацію нейрона. Метод складається із трьох кроків:

  • Пояснити активацію нейрона за допомогою GPT-4
  • Змоделювати активацію нейронів на основі пояснення
  • Порівняти отримані моделі з реальними активаціями

Необхідно уточнити термінологію:

Курс "Web design" від Web-academy.
Швидкий початок кар'єри у сфері IT! Опануйте професію веб-дизайнера — почніть самостійно керувати своїм часом й отримувати високий дохід вже за 9 тижнів.
Дізнатися більше
  • Нейрон – мінімальна одиниця нейронної мережі яка приймає інформацію, обробляє її та видає результат
  • Ланцюг або схема (circuit) – група нейронів, які працюють разом та видають колективний результат
  • Голова уваги (attention head) – вплив, що спрямовує «увагу» мовної моделі на конкретні слова або частини речення для відбору необхідної інформації

GPT-4 виявляє в моделі конкретні нейрони, ланцюги, голови уваги та створює легкочитне пояснення ролі цих компонентів. Вона також генерує оцінку пояснення, яку OpenAI називає «мірою здатності мовної моделі стискати та реконструювати активації нейронів з використанням природної мови». Дослідники сподіваються, що подібна кількісна оцінка дозволить досягти вимірюваного та сталого прогресу на шляху до розуміння роботи нейромереж.

Поки що результати не надто вражають. У дослідженні OpenAI порівнювала роботу GPT-4 з роботою людини, яка виконувала ті ж самі дії. Обидва виконавці показали погану в абсолютному вимірюванні оцінку пояснення, що означає граничну складність інтерпретації поведінки нейронів. Одна з причин цього – полісемантичність нейронів: один нейрон може видавати кілька значень або бути пов’язаним з декількома поняттями. Інша звучить як уривок із науково-фантастичного роману, герої якого намагаються зрозуміти логіку інопланетян – процитуємо статтю:

«Крім того, мовні моделі можуть формувати чужі поняття, для яких у людей немає слів. Це може відбуватися через те, що вони «піклуються» про різні речі: наприклад, про статистичні конструкції, корисні для задач прогнозування наступної лексеми, або виявляють природні абстракції, які людям ще належить відкрити: наприклад, якусь родину аналогій у непорівнянних областях.»

Також процес пояснення стримують обмеження обчислювальної потужності та необхідність надавати пояснення у зручній короткій формі природною мовою. Все ж дослідники OpenAI сподіваються на прогрес, до якого приведе вдосконалення мовних моделей та зростання потужностей. Компанія докладно виклала свій метод дослідження та виклала на GitHub код системи автоматичної інтерпретації, нейрони GPT-2 XL та набори даних пояснень.

«Основи АІ» — новий безплатний курс Google та Мінцифри, який навчить українців користуватись програмами зі штучним інтелектом

Курс "Web design" від Web-academy.
Швидкий початок кар'єри у сфері IT! Опануйте професію веб-дизайнера — почніть самостійно керувати своїм часом й отримувати високий дохід вже за 9 тижнів.
Дізнатися більше

Джерело: Ars Technica

Розділ Технології виходить за підтримки Favbet Tech

Favbet Tech – це ІТ-компанія зі 100% українською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологій та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців. IT-компанія входить у групу компаній FAVBET.

Триває конкурс авторів ІТС. Напиши статтю про розвиток ігор, геймінг та ігрові девайси та вигравай професійне ігрове кермо Logitech G923 Racing Wheel, або одну з низькопрофільних ігрових клавіатур Logitech G815 LIGHTSYNC RGB Mechanical Gaming Keyboard!


Loading comments...

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: