Depositphotos
Дослідники визначили найефективніші мови для спілкування зі штучним інтелектом. На здивування, англійська серед інших 26 мов не потрапила навіть в ТОП-5.
Університет Мериленду (UMD) спільно з Microsoft провели велике порівняльне дослідження. Вони взяли за основу кілька провідних моделей ШІ, як-от OpenAI, Google Gemini, Qwen, Llama та DeepSeek. У межах дослідження було 5200 завдань із різною довжиною контексту — від 8 до 128 тисяч токенів. Завдяки ним вчені перевіряли, як системи працюють із короткими й довгими текстами.
“По-перше, англійська не показала найкращих результатів серед всіх моделей. Насправді вона посіла шосте місце з 26 мов, коли оцінювалися довгі тексти, тоді як польська виявилася провідною мовою”, — пишуть дослідники.
Якщо казати про конкретні цифри, то польська мова показала середню точність 88%. Вона обійшла французьку (87%), італійську (86%), іспанську (85%) та російську (84%). Дослідники надали повний перелік найефективніших мов для розмовного ШІ, він виглядає наступним чином:
“Як показує аналіз, [польська] найточніша мова з погляду видачі команд штучному інтелекту. Досі польська вважалася однією з найскладніших для вивчення мов. Як виявилося, люди мають з нею проблеми, але не ШІ”, — каже Польське патентне відомство у Facebook.
Дослідники з’ясували, що чим довший текст, тим сильніше помітна різниця між мовами, для яких є багато даних і навпаки. Наприклад, при коротких запитах різниця в якості перекладу між найкращими й найгіршими мовами була 11%, а при дуже довгих — вже 34%. Пояснення наступне: для мов із меншим обсягом навчальних текстів моделі гірше розуміють зв’язки в довгих фразах. Тобто чим менше даних для мови, тим складніше моделі працювати з великими обсягами тексту.
Хоча останнє твердження — суперечливе. Вчені були щиро здивовані результатами і через те, що польська має порівняно невеликий обсяг таких даних. Для порівняння, англійська чи китайська мають у десятки разів більше джерел у відкритому доступі. Попри це, польській мові проблема з меншою кількістю даних і маловідомими джерелами не завадило вирватися на перше місце. А от китайська, яка має величезну кількість даних, продемонструвала один з найгірших результатів — четверта позиція знизу серед усіх протестованих мов.
Дослідники вважають, що складна граматика мови — це не вада, а перевага. Хоч вона має сім відмінків, три роди та багатий набір змін у словах (так званих флексій), це навпаки допомагає ШІ краще розуміти текст. Завдяки чітким граматичним формам моделі легше вловлюють зміст, навіть у довгих реченнях. А ще мова використовує латиницю, яка добре підходить для обробки тексту сучасними системами.
Крім того, польська мова все-таки має не маленьку цифрову базу — у Вікіпедії понад 1,6 млн статей, і це дев’яте місце у світі. До цього додається активний ІТ-сектор і багато текстів онлайн. Завдяки цьому штучний інтелект навчився обробляти польську краще, ніж будь-яку іншу мову — навіть англійську. Хоча польська має менше вільних даних за англійську чи китайську, тут спрацювало правило якість, а не кількість.
Джерело: PPC Land
Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.
Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.