Рубрики НовиниШІ

Не англійська: дослідники визначили, яка мова найбільш ефективна в запитах для ШІ

Опублікував Маргарита Юзяк

Дослідники визначили найефективніші мови для спілкування зі штучним інтелектом. На здивування, англійська серед інших 26 мов не потрапила навіть в ТОП-5.

Університет Мериленду (UMD) спільно з Microsoft провели велике порівняльне дослідження. Вони взяли за основу кілька провідних моделей ШІ, як-от OpenAI, Google Gemini, Qwen, Llama та DeepSeek. У межах дослідження було 5200 завдань із різною довжиною контексту — від 8 до 128 тисяч токенів. Завдяки ним вчені перевіряли, як системи працюють із короткими й довгими текстами.

“По-перше, англійська не показала найкращих результатів серед всіх моделей. Насправді вона посіла шосте місце з 26 мов, коли оцінювалися довгі тексти, тоді як польська виявилася провідною мовою”, — пишуть дослідники.

Якщо казати про конкретні цифри, то польська мова показала середню точність 88%. Вона обійшла французьку (87%), італійську (86%), іспанську (85%) та російську (84%). Дослідники надали повний перелік найефективніших мов для розмовного ШІ, він виглядає наступним чином:

  • Польська — 88%
  • Французька — 87%
  • Італійська — 86%
  • Іспанська — 85%
  • Російська — 84%
  • Англійська — 83,9%
  • Українська — 83,5%
  • Португальська — 82%
  • Німецька — 81%
  • Нідерландська — 80%

“Як показує аналіз, [польська] найточніша мова з погляду видачі команд штучному інтелекту. Досі польська вважалася однією з найскладніших для вивчення мов. Як виявилося, люди мають з нею проблеми, але не ШІ”, — каже Польське патентне відомство у Facebook.

Дослідники з’ясували, що чим довший текст, тим сильніше помітна різниця між мовами, для яких є багато даних і навпаки. Наприклад, при коротких запитах різниця в якості перекладу між найкращими й найгіршими мовами була 11%, а при дуже довгих — вже 34%. Пояснення наступне: для мов із меншим обсягом навчальних текстів моделі гірше розуміють зв’язки в довгих фразах. Тобто чим менше даних для мови, тим складніше моделі працювати з великими обсягами тексту.

Хоча останнє твердження — суперечливе. Вчені були щиро здивовані результатами і через те, що польська має порівняно невеликий обсяг таких даних. Для порівняння, англійська чи китайська мають у десятки разів більше джерел у відкритому доступі. Попри це, польській мові проблема з меншою кількістю даних і маловідомими джерелами не завадило вирватися на перше місце. А от китайська, яка має величезну кількість даних, продемонструвала один з найгірших результатів — четверта позиція знизу серед усіх протестованих мов.

Але все-таки чому саме польська?

Дослідники вважають, що складна граматика мови — це не вада, а перевага. Хоч вона має сім відмінків, три роди та багатий набір змін у словах (так званих флексій), це навпаки допомагає ШІ краще розуміти текст. Завдяки чітким граматичним формам моделі легше вловлюють зміст, навіть у довгих реченнях. А ще мова використовує латиницю, яка добре підходить для обробки тексту сучасними системами.

Крім того, польська мова все-таки має не маленьку цифрову базу — у Вікіпедії понад 1,6 млн статей, і це дев’яте місце у світі. До цього додається активний ІТ-сектор і багато текстів онлайн. Завдяки цьому штучний інтелект навчився обробляти польську краще, ніж будь-яку іншу мову — навіть англійську. Хоча польська має менше вільних даних за англійську чи китайську, тут спрацювало правило якість, а не кількість.

Джерело: PPC Land

Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.

Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.