MamayLM – LLM модель, що «думає» українською

Опублікував sviatoslav

Дослідники з INSAIT (Болгарія) та ETH Zurich (Швейцарія) представили MamayLM — велику мовну модель, спеціально адаптовану для української мови. Вона створена на основі Google Gemma 2 9B і містить 9 мільярдів параметрів.

Створення моделі на основі Gemma 2 означає, що дослідники використали існуючу архітектуру від Google, донавчивши її (зробивши «fine-tuning») на українських текстах для покращення результатів.

MamayLM, навчаючись безпосередньо на україномовних даних, розуміє граматику, лексику, контекст і культурні нюанси української мови.  Підтримує українську та англійську і працює на одній GPU, що робить її доступною для локального використання.

Технічні характеристики:

  • Кількість параметрів: 9 мільярдів
  • Архітектура: Gemma 2 9B
  • Контекстне вікно: 8192 токени
  • Розмір моделі: 5,10 Гб

Які переваги для українського користувача, що використовує локальні AI-технології?

Більшість популярних мовних моделей навчалися переважно на англомовних даних. Вони часто не розрізняють особливостей української мови, інтерпретуючи її як варіант російської. Тому, коли користувач вводить запит українською, така модель може неправильно зрозуміти його зміст, некоректно перекласти на англійську, виконати запит із викривленнями, а потім повернути відповідь українською — уже із суржиком або смисловими помилками.

Використання мови додатково навченої на українських даних, гарантує точніші, природніші відповіді.

Поява MamayLM — поштовх для стартапів і незалежних розробників створювати проєкти з високим рівнем приватності без залежності від хмарних сервісів. Це може стимулювати розвиток українських продуктів, підсилити використання української мови в ІТ та стати базою для інновацій у критичних сферах. Це не лише технологія, а й інструмент культурного та цифрового суверенітету.