Depositphotos
Украинские исследователи создали первый тест ВНО для ИИ и доказали: даже топовые модели вроде ChatGPT не смогли бы поступить и успешно закончить школу.
Наконец-то кто-то решил провести не только «трюки с мертвой бабушкой» для ключей активации Windows 7 и не сексист ли ИИ. Исследователи создали многоформатный тест ZNOVision — он проверяет знания ИИ по 13 школьным предметам на украинском языке. Тест включает более 4300 заданий по разным категориям: физика, математика, история, литература и тому подобное. Более половины вопросов имеют схемы, карты или графики. Часть тестов требует логических выводов, часть — точного понимания формулировок на украинском.
Исследователи привлекли для тестирования шесть крупных моделей: GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Qwen2VL72B, Paligemma3B и PaligemmaFT. Для запуска моделей и обработки данных использовали облачную инфраструктуру De Novo — с GPU-кластерами, сертифицированными по украинским требованиям безопасности.
Результат следующий: ни одна модель не смогла набрать 70% правильных ответов. Оказывается ИИ не только плохой психотерапевт и постепенно сводит с ума, а еще и проигрывает украинским школьникам. Лучше всего показал себя Gemini Pro — 67,5%. У Claude 3.5 — 64,3%, у Qwen2VL — 51,2%, а вот GPT-4o дала лишь 47%. Для сравнения: если выбирать ответы наугад, это было бы около 22%.
Худшие результаты были в визуально-текстовых заданиях, где нужно было обработать картинки и текст одновременно на украинском. Claude смог дать правильные ответы в 26,7% таких вопросов, GPT-4o — в 29%, Qwen2VL — в 34,4%. Для англоязычных моделей этот показатель обычно превышает 60%.
«Искусственный интеллект не должен быть монополией нескольких языков. Украинский должен звучать в системах будущего так же уверенно, как английский. И мы в De Novo верим, что можем создать для этого технологическую основу здесь, в Украине», — говорит Максим Агеев, генеральный директор De Novo.
ZNOVision создали не просто ради эксперимента. Его можно использовать для тестирования украиноязычных моделей в образовании, автоматизации поддержки, модерации контента, локализации. Стартапы могут применять его для обучения собственных ИИ-идей, а EdTech-сервисы — как основу для адаптивных тестов. Но пока видим, что украинский не очень хорошо интегрирован в ИИ-системы, поэтому ошибок немало. Что говорить, если чатботы ИИ, как ChatGPT, крайне чувствительны к орфографии и это на том языке, на котором модель разрабатывалась.
Источник: ZNOVision