
Українські дослідники створили перший тест ЗНО для ШІ і довели: навіть топові моделі на кшталт ChatGPT не змогли б вступити успішно закінчити школу.
Нарешті хтось вирішив провести не тільки «трюки із мертвою бабусею» для ключів активації Windows 7 та чи не сексист ШІ. Дослідники створили багатоформатний тест ZNOVision — він перевіряє знання ШІ з 13 шкільних предметів українською мовою. Тест включає понад 4300 завдань за різними категоріями: фізика, математика, історія, література тощо. Понад половина запитань мають схеми, мапи або графіки. Частина тестів вимагає логічних висновків, частина — точного розуміння формулювань українською.
Дослідники залучили для тестування шість великих моделей: GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Qwen2VL72B, Paligemma3B і PaligemmaFT. Для запуску моделей і обробки даних використовували хмарну інфраструктуру De Novo — з GPU-кластерами, сертифікованими за українськими вимогами безпеки.
Результат наступний: жодна модель не змогла набрати 70% правильних відповідей. Виявляється ШІ не тільки кепський психотерапевт та поступово зводить з глузду, а ще й програє українським школярам. Найкраще показав себе Gemini Pro — 67,5%. У Claude 3.5 — 64,3%, у Qwen2VL — 51,2%, а ось GPT-4o дала лише 47%. Для порівняння: якщо обирати відповіді навмання, це було б близько 22%.
Найгірші результати були у візуально-текстових завданнях, де потрібно було обробити картинки й текст одночасно українською. Claude зміг дати правильні відповіді у 26,7% таких запитань, GPT-4o — у 29%, Qwen2VL — у 34,4%. Для англомовних моделей цей показник зазвичай перевищує 60%.
«Штучний інтелект не має бути монополією кількох мов. Українська повинна звучати в системах майбутнього так само впевнено, як англійська. І ми в De Novo віримо, що можемо створити для цього технологічне підґрунтя тут, в Україні», — говорить Максим Агеєв, генеральний директор De Novo.
ZNOVision створили не просто заради експерименту. Його можна використовувати для тестування україномовних моделей в освіті, автоматизації підтримки, модерації контенту, локалізації. Стартапи можуть застосовувати його для навчання власних ШІ-ідей, а EdTech-сервіси — як основу для адаптивних тестів. Але поки що бачимо, що українська не дуже добре інтегрована у ШІ-системи, тому помилок чимало. Що казати, якщо чатботи ШІ, як ChatGPT, вкрай чутливі до орфографії і це на тій мові, на якій модель розробляли.
Джерело: ZNOVision
Повідомити про помилку
Текст, який буде надіслано нашим редакторам: