Depositphotos
Канадські дослідники з Інституту Вейцмана та Intel Labs представили новий алгоритм, що дозволяє різним моделям ШІ об’єднуватись і працювати разом для підвищення ефективності і зменшення витрат.
Кожна велика мовна модель (LLM) має свою унікальну електронну «мову». Однак ще донедавна різні моделі не могли безпосередньо взаємодіяти одна з одною. Низка нових алгоритмів, запропонованих канадськими дослідниками, прибирає це обмеження, дозволяючи користувачам використовувати спільну обчислювальну потужність кількох моделей, прискорюючи їхню роботу у 1,5 рази.
Такі потужні LLM, як ChatGPT або Gemini, здатні виконувати різноманітні складні завдання, однак самі по собі вони залишаються повільними і споживають велику кількість обчислювальної потужності. У 2022 році технологічні компанії усвідомили, що моделі ШІ можуть бути продуктивнішими і потужнішими, якщо працюватимуть спільно.
Таким чином був розроблений метод, що отримав назву «спекулятивного декодування». Цей метод передбачає, що невелика та швидка мовна модель з відносно обмеженим набором даних буде першою відповідати на запит користувача, більш потужна та велика LLM аналізуватиме та коректуватиме відповідь за необхідності.
Такий підхід дозволив забезпечити 100% точність, на відміну від альтернативних методів прискорення, які знижували якість вихідних даних. Однак цей метод обмежувало те, що мовні моделі мали використовувати одну й ту саму цифрову мову. Це не дозволяло об’єднувати моделі різних компаній.
«Технологічні гіганти перейшли на спекулятивне декодування, отримуючи вигоду від більш високої продуктивності і заощаджуючи мільярди доларів на рік на вартості обчислювальної потужності, але тільки вони мали доступ до невеликих, більш швидких моделей, що говорять тією ж мовою, що і більші моделі. Стартапу, який прагне отримати вигоду зі спекулятивного декодування, довелося б навчити власну невелику модель, яка б відповідала мові великої моделі, а це вимагає великого досвіду і дорогих обчислювальних ресурсів», — пояснює керівник дослідження, аспірант дослідницької групи професора Девіда Харела на кафедрі комп’ютерних наук та прикладної математики Університету Вейцмана, Надав Тімор.
Нові алгоритми дозволяють об’єднувати будь-які невеликі моделі ШІ з якими завгодно великими. Дослідники розробили алгоритм, що дозволяє LLM переводити вихідні дані з внутрішньої мови токенів у загальний формат, зрозумілий усім моделям. Інший алгоритм спонукає такі моделі ШІ у спільній роботі покладатись на токени, що мають однакове значення для всіх моделей.
«Спочатку ми турбувалися, що надто багато інформації буде «втрачено при перекладі», і що різні моделі не зможуть ефективно взаємодіяти. Але ми помилялися. Наші алгоритми прискорюють роботу LLM до 2,8 разів, що призводить до значної економії обчислювальної потужності», — зазначає Надав Тімор.
За останні кілька місяців команда опублікувала свої алгоритми на платформі штучного інтелекту з відкритим кодом Hugging Face Transformers, зробивши їх доступними для розробників по всьому світу. З того часу ці алгоритми стали частиною стандартних інструментів для ефективної реалізації ШІ-процесів.
Результати дослідження опубліковані на сервері препринтів arXiv
Джерело: TechXplore