Новини Технології 20.03.2023 о 17:47 comment views icon

Alpaca 7B — якісна копія ШІ ChatGPT, яка обійшлася дослідникам зі Стенфорда всього у $600

author avatar
https://itc.ua/wp-content/uploads/2022/09/Katya-96x96.jpg *** https://itc.ua/wp-content/uploads/2022/09/Katya-96x96.jpg *** https://itc.ua/wp-content/uploads/2022/09/Katya-96x96.jpg

Катерина Даньшина

Авторка новин

Розділ Технології виходить за підтримки Favbet Tech

Alpaca 7B працює подібно до ChatGPT, але побудована на мовній моделі з відкритим кодом, для навчання якої знадобиться лише $600. 

Ще пів року тому за розвитком великих мовних моделей стежили в основному дослідники, але запуск чатбота OpenAI привернув увагу усього людства. Виявилось, що машини можуть спілкуватися у спосіб, який практично не відрізняється від людського — пишуть тексти чи навіть програмні коди, та стрімко вдосконалюються (згадаємо недавній запуск GPT-4). 

ШІ-перегони стартували після того, як активно включилися Google, Apple, Meta, Baidu та Amazon, і нині мовні моделі вже є в наших пошукових системах та з’являться в автомобілях, телефонах та телевізорах, а згодом і в роботах

Але як щодо мовної моделі, яку можна створити самостійно за $600? 

Дослідницька група Стенфордського університету взяла за основу мовну модель Meta LLaMA 7B з відкритим кодом – найменшу та найдешевшу з кількох доступних моделей LLaMA. Попередньо навчена на трильйоні «токенів», ця модель мала певні можливості, але значно відставала від ChatGPT у більшості завдань. 

Коли LLaMA 7B була запущена, дослідники попросили GPT-3.5 взяти 175 пар інструкцій, написаних людиною, і згенерувати їх більшу кількість в тому самому стилі та форматі, по 20 за раз. Процес автоматизували за допомогою одного з корисних API OpenAI, і за короткий час у команди було близько 52 000 зразків розмов, які можна було використати під час навчання моделі LLaMA. Створення масиву навчальних даних обійшлося менше ніж у $500.

Основи Python для школярів від Hillel IT School.
Відкрийте для вашої дитини захопливий світ програмування з нашим онлайн-курсом "Програмування Python для школярів". Ми вивчимо основи програмування на прикладі мови Python, надаючи зрозумілі пояснення та цікаві практичні завдання.
Зареєструватися

Alpaca AI — якісна підробка ШІ ChatGPT, яка обійшлася дослідникам зі Стенфорда всього у $600

Ці дані згодом використали для тонкого налаштування LLaMA – тригодинний процес, що відбувався на 8 моделях A100 на 80 ГБ, які коштують менш як $100 у більшості постачальників хмарних обчислень. 

Далі модель, яку назвали Alpaca 7B, протестували паралельно з ChatGPT у різних сферах, включаючи електронну пошту, соціальні мережі та інструменти продуктивності. Alpaca перемогла у 90 із цих тестів, а GPT — у 89.

«Ми були вражені результатом, враховуючи невеликий розмір моделі та скромний обсяг даних для виконання інструкцій. Крім використання цього набору статичних оцінок, ми також тестували Alpaca в інтерактивному режимі та виявили, що вона часто поводиться подібно до GPT-3.5 на різноманітних вхідних даних. Ми визнаємо, що наша оцінка може бути обмежена у масштабі та різноманітності», — пише команда.

Дослідники кажуть, що могли б використати ще менше коштів для того, щоб оптимізувати процес. Варто також зазначити, що охочі відтворити штучний інтелект, тепер мають доступ до набагато потужнішого GPT-4, а також до кількох потужніших моделей LLaMA, які можна використовувати як основу.

Основи Python для школярів від Hillel IT School.
Відкрийте для вашої дитини захопливий світ програмування з нашим онлайн-курсом "Програмування Python для школярів". Ми вивчимо основи програмування на прикладі мови Python, надаючи зрозумілі пояснення та цікаві практичні завдання.
Зареєструватися

Команда Стенфордського університету опублікувала на Github 52 000 запитань, використаних у дослідженні, разом із кодом для генерації додаткових запитань і кодом, який вони використовували для тонкого налаштування моделі LLaMA. Зазначається, що дослідники «ще не налаштували модель, щоб вона була безпечною та нешкідливою», і просить усіх, хто встановлює її, звітувати про виявлені проблеми безпеки та етики.

Що ж може завадити створенню власного ШІ-інструменту на основі мовних моделей OpenAI? Відповідно до умов надання послуг компанії, «не можна… використовувати вихідні дані Служб для розробки моделей, які конкурують з OpenAI». Meta також дозволяє використовувати LLaMA лише академічним дослідникам за некомерційними ліцензіями — хоча як ми повідомляли модель просочилася в мережу через тиждень після анонсу.

Інша група стверджує, що можна взагалі усунути витрати на хмарні обчислення та завершити процес навчання за 5 годин на одній високоякісній відеокарті NVIDIA RTX 4090.

Джерело: New Atlas, Stanford

Розділ Технології виходить за підтримки Favbet Tech

Favbet Tech – це ІТ-компанія зі 100% украі‌нською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологіи‌ та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців.

Loading comments...

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: