Американська компанія з корпоративного програмного забезпечення Databricks випустила Dolly 2.0 – наступну версію своєї великої мовної моделі (LLM) з подібними до ChatGPT функціями. Це перша LLM з відкритим вихідним кодом та набором інструкцій для навчання у вільному доступі, що допоможе компаніям використовувати ШІ-технологію для власних комерційних проєктів – без необхідності сплати за API або обміну даними з третіми сторонами.

Останніми місяцями було випущено чимало мовних моделей, подібних до GPT від OpenAI, які за багатьма визначеннями можна було вважати відкритими. Одна з таких – LLaMA від Meta, якою, своєю чергою, надихнулись Alpaca, Koala, Vicuna та Dolly 1.0

Однак багато з цих «відкритих» моделей перебували під контролем розробників систем — як-от ШІ-проєкт команди зі Стенфорду Alpaca, який був навчений на інструкціях GPT-3.5 та створений на основі LLaMA 7B. Разом з тим, умови використання OpenAI включають правило про те, що дослідники не можуть використовувати продукти систем, які конкурують з компанією.

Мета Databricks – розв’язати цю проблему. Dolly 2.0 — це велика мовна модель з 12 мільярдами параметрів, заснована на сімействі моделей штучного інтелекту Eleuther з відкритим кодом і налаштована виключно на невеликий блок інструкцій (databricks-dolly-15k), створений співробітниками Databricks. Умови ліцензування цього набору даних дозволяють використовувати, змінювати та розширювати його для будь-яких цілей, включаючи академічні чи комерційні програми.

У блозі Databricks підкреслюється, що, як і оригінальна Dolly, версія 2.0 не є найсучаснішою, але «демонструє напрочуд ефективний рівень виконання інструкцій, враховуючи розмір навчального блоку». У дописі додається, що рівень зусиль і витрат, необхідних для створення потужних технологій штучного інтелекту, «значно менший, ніж уявлялося раніше».

Завантажити модель Dolly 2.0 можна на сторінці Databricks Hugging Face, а інструкції — на GitHub. Компанія також пропонує відвідати 25 квітня її вебінар, де роз’яснять, як організації можуть використовувати LLM.