Новости ИИ 03.11.2025 comment views icon

Не английский: исследователи определили, какой язык наиболее эффективен в запросах для ИИ

author avatar

Маргарита Юзяк

Автор новостей

Не англійська: дослідники визначили, яка мова найбільш ефективна в запитах для ШІ

Исследователи определили самые эффективные языки для общения с искусственным интеллектом. К удивлению, английский среди других 26 языков не попал даже в ТОП-5.

Университет Мэриленда (UMD) совместно с Microsoft провели большое сравнительное исследование. Они взяли за основу несколько ведущих моделей ИИ, таких как OpenAI, Google Gemini, Qwen, Llama и DeepSeek. В рамках исследования было 5200 задач с разной длиной контекста — от 8 до 128 тысяч токенов. Благодаря им ученые проверяли, как системы работают с короткими и длинными текстами.

«Во-первых, английский не показал лучших результатов среди всех моделей. На самом деле он занял шестое место из 26 языков, когда оценивались длинные тексты, тогда как польский оказался ведущим языком», — пишут исследователи.

Если говорить о конкретных цифрах, то польский язык показал среднюю точность 88%. Он обошел французский (87%), итальянский (86%), испанский (85%) и русский (84%). Исследователи предоставили полный перечень самых эффективных языков для разговорного ИИ, он выглядит следующим образом:

  • Польский — 88%
  • Французский — 87%
  • Итальянский — 86%
  • Испанский — 85%
  • Российская — 84%
  • Английский — 83,9%
  • Украинский — 83,5%
  • Португальский — 82%
  • Немецкий — 81%
  • Нидерландский — 80%

«Как показывает анализ, [польский] самый точный язык с точки зрения выдачи команд искусственному интеллекту. До сих пор польский считался одним из самых сложных для изучения языков. Как оказалось, люди имеют с ним проблемы, но не ИИ», — говорит Польское патентное ведомство в Facebook.

Исследователи выяснили, что чем длиннее текст, тем сильнее заметна разница между языками, для которых есть много данных и наоборот. Например, при коротких запросах разница в качестве перевода между лучшими и худшими языками была 11%, а при очень длинных — уже 34%. Объяснение следующее: для языков с меньшим объемом обучающих текстов модели хуже понимают связи в длинных фразах. То есть чем меньше данных для языка, тем сложнее модели работать с большими объемами текста.

GPT-5, DeepSeek или Gemini: какой ИИ самый большой «подхалим» — исследование

Хотя последнее утверждение — противоречивое. Ученые были искренне удивлены результатами и потому, что польский имеет сравнительно небольшой объем таких данных. Для сравнения, английский или китайский имеют в десятки раз больше источников в открытом доступе. Несмотря на это, польский язык проблема с меньшим количеством данных и малоизвестными источниками не помешало вырваться на первое место. А вот китайский, который имеет огромное количество данных, продемонстрировал один из худших результатов — четвертая позиция снизу среди всех протестированных языков.

Но все-таки почему именно польский?

Исследователи считают, что сложная грамматика языка — это не минус, а преимущество. Хотя она имеет семь падежей, три рода и богатый набор изменений в словах (так называемых флексий), это наоборот помогает ИИ лучше понимать текст. Благодаря четким грамматическим формам модели легче улавливают смысл, даже в длинных предложениях. А еще язык использует латиницу, которая хорошо подходит для обработки текста современными системами.

Кроме того, польский язык все-таки имеет не маленькую цифровую базу — в Википедии более 1,6 млн статей, и это девятое место в мире. К этому добавляется активный ИТ-сектор и много текстов онлайн. Благодаря этому искусственный интеллект научился обрабатывать польский лучше, чем любой другой язык — даже английский. Хотя польский имеет меньше свободных данных, чем английский или китайский, здесь сработало правило качество, а не количество.

Илон Маск запустил Grokipedia, и она копирует куски «Википедии»

Источник: PPC Land

Що думаєте про цю статтю?
Голосів:
Файно є
Файно є
Йой, най буде!
Йой, най буде!
Трясця!
Трясця!
Ну такої...
Ну такої...
Бісить, аж тіпає!
Бісить, аж тіпає!
Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: