Презентація WINWIN AI Center of Excellence / Мінцифри
Минцифры призывает украинские медиа, бизнес и учебные заведения бесплатно делиться своими текстами для обучения «национальной языковой модели».
Об этом сообщили в Министерстве цифровой трансформации, которое вместе с «Киевстаром» работает над запуском национального LLM. Речь идет о создании украинского аналога ChatGPT на локальных данных. Модель будет лучше понимать язык и контекст страны, а еще станет основой для ряда ИИ-сервисов.
«Национальная LLM станет базой для создания ИИ-помощников в госсекторе и бизнесе. Это будут украинские аналоги Gemini и ChatGPT: такие же удобные и технологичные, но обученные на наших реалиях и контексте», — отметили в Минцифры.
Чтобы обучить такую модель, нужны терабайты качественного украиноязычного контента. В министерстве прямо обращаются к тем, кто этот контент создает, — редакциям, издательствам, университетам, исследовательским центрам и компаниям.
«Если у вас есть качественные тексты на украинском — вы нам нужны. Ваш контент станет фундаментом для национального ИИ, который будет давать ответы миллионам украинцев», — говорят они.
Для тренировки модели собирают различные типы данных: новости, интервью, публицистику, учебные и научные материалы, художественные тексты, бизнес-документацию и технические описания. Ниже полный список:
В Минцифры говорят, что медиа и издатели должны задать языковой стандарт. От университетов и ученых ожидается наполнение модель знаниями, а бизнес поможет ориентироваться в реальных процессах и рынке. Ведомство отдельно подчеркивает юридическую сторону. Условия передачи данных будут прозрачными, материалы используют только для развития украинского ИИ, а всех партнеров упомянут в официальном отчете.
«Мы понимаем ценность вашей интеллектуальной собственности. Поэтому подготовили прозрачные юридические условия, чтобы ваши материалы были защищены и работали исключительно на усиление украинского ИИ», — отметили в Минцифры.
Подать заявку о сотрудничестве по сбору данных можно через специальная форма. Отметим, что из-за сложности со сбором качественных данных, в частности из-за юридических и технических ограничений, тестирование беты национальной LLM перенесли на весну в 2026 году.
Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.
Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.