Презентація WINWIN AI Center of Excellence / Мінцифри

Мінцифри закликає українські медіа, бізнес і навчальні заклади безплатно ділитися своїми текстами для навчання “національної мовної моделі”.





Про це повідомили в Міністерстві цифрової трансформації, яке разом з “Київстаром” працює над запуском національної LLM. Йдеться про створення українського аналога ChatGPT на локальних даних. Модель краще розумітиме мову й контекст країни, а ще стане основою для низки ШІ-сервісів.

“Національна LLM стане базою для створення ШІ-помічників у держсекторі та бізнесі. Це будуть українські аналоги Gemini та ChatGPT: такі ж зручні та технологічні, але навчені на наших реаліях і контексті”, — зазначили в Мінцифри.

Щоб навчити таку модель, потрібні терабайти якісного україномовного контенту. У міністерстві прямо звертаються до тих, хто цей контент створює, — редакцій, видавництв, університетів, дослідницьких центрів і компаній.

“Якщо у вас є якісні тексти українською — ви нам потрібні. Ваш контент стане фундаментом для національного ШІ, який даватиме відповіді мільйонам українців”, — кажуть вони.

Для тренування моделі збирають різні типи даних: новини, інтерв’ю, публіцистику, навчальні та наукові матеріали, художні тексти, бізнес-документацію й технічні описи. Нижче повний перелік:





Медіа: новини, інтерв’ю, блоги, публіцистика.

новини, інтерв’ю, блоги, публіцистика. Наука та освіта: контент курсів, підручники, наукові роботи, дисертації.

контент курсів, підручники, наукові роботи, дисертації. Література: художні твори, критика, рецензії.

художні твори, критика, рецензії. Історія: оцифровані архівні матеріали.

оцифровані архівні матеріали. Бізнес-дані: технічна документація, описи товарів, відкриті відгуки, матеріали корпоративних блогів.

У Мінцифри кажуть, що медіа й видавці мають задати мовний стандарт. Від університетів та науковців очікується наповнення модель знаннями, а бізнес допоможе орієнтуватися в реальних процесах і ринку. Відомство окремо наголошує на юридичній стороні. Умови передачі даних будуть прозорими, матеріали використають лише для розвитку українського ШІ, а всіх партнерів згадають в офіційному звіті.

“Ми розуміємо цінність вашої інтелектуальної власності. Тому підготували прозорі юридичні умови, щоб ваші матеріали були захищені й працювали винятково на посилення українського ШІ”, — зазначили в Мінцифри.

Подати заявку про співпрацю щодо збору даних можна через спеціальну форму. Зазначимо, що через складність зі збором якісних даних, зокрема через юридичні та технічні обмеження, тестування бети національної LLM перенесли на весну 2026 року.