ChatGPT на стероїдах. Дослідник Google знайшов спосіб «‎примусити» ШІ аналізувати до мільйонів слів за раз

Опубликовал
Катерина Даньшина

Наразі найпотужніші чатботи можуть сприймати до 75 000 слів у запитах, однак збільшення вхідних даних обмежується пам’яттю графічних процесорів, які навчають і запускають моделі ШІ.

У галузі ШІ ці вхідні дані вимірюються як «‎токени» та «‎контекстні вікна»: токен — це одиниця, що може представляти слово, його частину, число чи щось подібне; а контекстне вікно — це простір, де ви вводите запитання, текст або інші дані для чатбота.

Чатбот Anthropic Claude пропонує контекстне вікно до 100 000 токенів, або близько 75 000 слів. По-суті, це книжка, яку системи може одразу проаналізувати й надати певну відповідь. Модель OpenAI GPT-3.5 підтримує контекстне вікно з обмеженням до 16 000 слів, а її наступниця GPT-4 — до 32 000. Відповідно до останнього дослідження, модель, створена компанією MosiacML, що належить Databricks, може обробляти 65 000 токенів.

У своїй статті аспірант Каліфорнійського університету в Берклі та позаштатний дослідник Google DeepMind Хао Лю пропонує спосіб збільшити цю кількість до мільйонів.

Онлайн-курс Pyton від Powercode academy.
Опануйте PYTHON з нуля та майте проект у своєму портфоліо вже через 4 місяця.
Приєднатися

Сучасні моделі штучного інтелекту обробляють дані таким чином, що вимагають, щоб графічні процесори зберігали різні внутрішні виходні дані, а потім повторно обчислювали їх перед передачею на наступний графічний процесор. Для цього потрібно багато пам’яті, якої не вистачає — що зрештою обмежує кількість вхідних даних, які може обробити модель. Незалежно від того, наскільки швидким є графічний процесор, є так зване «вузьке місце‎» пам’яті.

Новий підхід формує своєрідне кільце графічних процесорів, які передають частини процесу наступному графічному процесору, одночасно отримуючи подібні блоки від іншого сусіднього графічного процесора. І так далі.

«Це фактично усуває обмеження пам’яті, накладені окремими пристроями», — пишуть дослідники.

Лю каже, що в теорії багато книг і навіть фільми в майбутньому можна додати в контекстні вікна за раз, а моделі штучного інтелекту аналізуватимуть їх і створюватимуть узгоджені відповіді:

«Чим більше у вас графічних процесорів, тим довшим може бути контекстне вікно. Цікаво, що зможуть побудувати з цього великі технологічні компанії».

Лю розрахував для прикладу, що модель з 13 мільярдами параметрів та контекстним вікном у 16 000 токенів, яка використовує 256 графічних процесорів Nvidia A100, зможе за нового «‎кільцевого підходу» обробляти контекстне вікно з 4 мільйонами токенів.

Ці висновки викликають важливе запитання: якщо ви зможете зробити більше з меншою кількістю графічних процесорів, чи означатиме це зниження попиту на мікросхеми AI від Nvidia? Лю каже, що ні. Замість цього розробники та технологічні компанії пробуватимуть більші та сміливіші речі із новою технікою.

Водночас використання меншої кількості GPU може дещо пом’якшити вплив на довкілля та зменшити використання електроенергії в галузі ШІ, яка, за недавніми підрахунками, до 2027 року споживатиме стільки ж енергії, як Швеція чи Нідерланди.

Джерело: Insider

Disqus Comments Loading...