Дослідники визначили найефективніші мови для спілкування зі штучним інтелектом. На здивування, англійська серед інших 26 мов не потрапила навіть в ТОП-5.
Університет Мериленду (UMD) спільно з Microsoft провели велике порівняльне дослідження. Вони взяли за основу кілька провідних моделей ШІ, як-от OpenAI, Google Gemini, Qwen, Llama та DeepSeek. У межах дослідження було 5200 завдань із різною довжиною контексту — від 8 до 128 тисяч токенів. Завдяки ним вчені перевіряли, як системи працюють із короткими й довгими текстами.
“По-перше, англійська не показала найкращих результатів серед всіх моделей. Насправді вона посіла шосте місце з 26 мов, коли оцінювалися довгі тексти, тоді як польська виявилася провідною мовою”, — пишуть дослідники.
Якщо казати про конкретні цифри, то польська мова показала середню точність 88%. Вона обійшла французьку (87%), італійську (86%), іспанську (85%) та російську (84%). Дослідники надали повний перелік найефективніших мов для розмовного ШІ, він виглядає наступним чином:
- Польська — 88%
- Французька — 87%
- Італійська — 86%
- Іспанська — 85%
- Російська — 84%
- Англійська — 83,9%
- Українська — 83,5%
- Португальська — 82%
- Німецька — 81%
- Нідерландська — 80%
“Як показує аналіз, [польська] найточніша мова з погляду видачі команд штучному інтелекту. Досі польська вважалася однією з найскладніших для вивчення мов. Як виявилося, люди мають з нею проблеми, але не ШІ”, — каже Польське патентне відомство у Facebook.
Дослідники з’ясували, що чим довший текст, тим сильніше помітна різниця між мовами, для яких є багато даних і навпаки. Наприклад, при коротких запитах різниця в якості перекладу між найкращими й найгіршими мовами була 11%, а при дуже довгих — вже 34%. Пояснення наступне: для мов із меншим обсягом навчальних текстів моделі гірше розуміють зв’язки в довгих фразах. Тобто чим менше даних для мови, тим складніше моделі працювати з великими обсягами тексту.
GPT-5, DeepSeek чи Gemini: який ШІ найбільший “підлабузник” — дослідження
Хоча останнє твердження — суперечливе. Вчені були щиро здивовані результатами і через те, що польська має порівняно невеликий обсяг таких даних. Для порівняння, англійська чи китайська мають у десятки разів більше джерел у відкритому доступі. Попри це, польській мові проблема з меншою кількістю даних і маловідомими джерелами не завадило вирватися на перше місце. А от китайська, яка має величезну кількість даних, продемонструвала один з найгірших результатів — четверта позиція знизу серед усіх протестованих мов.
Але все-таки чому саме польська?
Дослідники вважають, що складна граматика мови — це не вада, а перевага. Хоч вона має сім відмінків, три роди та багатий набір змін у словах (так званих флексій), це навпаки допомагає ШІ краще розуміти текст. Завдяки чітким граматичним формам моделі легше вловлюють зміст, навіть у довгих реченнях. А ще мова використовує латиницю, яка добре підходить для обробки тексту сучасними системами.
Крім того, польська мова все-таки має не маленьку цифрову базу — у Вікіпедії понад 1,6 млн статей, і це дев’яте місце у світі. До цього додається активний ІТ-сектор і багато текстів онлайн. Завдяки цьому штучний інтелект навчився обробляти польську краще, ніж будь-яку іншу мову — навіть англійську. Хоча польська має менше вільних даних за англійську чи китайську, тут спрацювало правило якість, а не кількість.
Ілон Маск запустив Grokipedia, і вона копіює шматки “Вікіпедії”
Джерело: PPC Land

Повідомити про помилку
Текст, який буде надіслано нашим редакторам: