Деградація LLM-моделей ШІ може вбити інтернет за три роки, — дослідження Корнелльського університету

Опублікував Олександр Федоткін

23.10.2025 12:16

Unsplash

Нове дослідження науковців з Корнелльського університету продемонструвало, що Великі мовні моделі на базі ШІ можуть деградувати через низькоякісний контент з інтернету, який використовується у процесі їхнього навчання.

Anthropic, OpenAI, Google та інші провідні розробники моделей ШІ досі залежать від контенту з інтернету, на якому навчають власні LLM. Минулого року повідомлялось, що провідні розробники штучного інтелекту зіткнулись з дефіцитом якісної інформації для навчання ШІ, що завадило розробці більш просунутих моделей.

За результатами дослідження підкреслюється, що тривалий вплив низькоякісного контенту може негативно вплинути на когнітивні здібності людей, здатність до міркування та концентрацію уваги. Те саме стосується і ШІ. Дослідники використали два показники для оцінки та виявлення низькоякісного контенту.

Перший тест зосереджувався на взаємодії з короткими вірусними публікаціями, які викликали високий рівень взаємодії. Другий тест стосувався семантичної якості та переважно охоплював низькоякісні публікації з клікбейтними заголовками та стилем написання.

Вчені використали ці показники для створення наборів даних, що містили різний обсяг непотрібної або якісної інформації. Вони використовували ці набори даних для визначення впливу низькоякісного контенту на LLM, такі як Llama 3 і Qwen 2.5.

Дослідження продемонструвало, що точність LLM, які використовували виключно сміттєвий контент, знижувалась з 74,9% до 57,2%. Їхня здатність розуміти контент у довгостроковій перспективі також знижувалась з 84,4% до 52,3%. Дослідники виявили, що когнітивні здібності користувачів та здатність розуміти моделі ШІ за тривалого використання низькоякісного контенту тільки погіршуються.

В ході дослідження також було встановлено, що тривалий вплив неякісного контенту руйнує етичну послідовність ШІ-моделей, призводячи до такого званого “дрейфу особистості”. Це робить LLM ще більш непередбачуваними та схильними давати неправильні відповіді. Через неякісний контент моделі ШІ також часто відмовлялись від послідовних алгоритмів міркування та поспіхом генерували поверхневі відповіді.

Протягом останніх кількох місяців провідні діячі технологічної сфери, зокрема, співзасновник Reddit Алексіс Оганян та гендиректор OpenAI Сем Альтман, викликали дискусії щодо того, що “теорія мертвого інтернету” стає реальністю. За словами Алексіса Оганяна, більша частина інтернету вже померла після появи чатботів. Однак він передрікає появу соцмереж нового покоління, які будуть більш адаптовані під людей.

Сем Альтман також заявляє, що “теорія мертвого інтернету” втілюється у реальність просто у нас на очах. Гендиректор OpenAI також заявив, що більшість облікових записів соцмережі X керуються LLM.

Минулого року дослідження Amazon Web Services (AWS) продемонструвало, що 57% контенту, який публікується у мережі, створюється або перекладається з використанням алгоритмів ШІ. Це негативно впливає на якість результатів пошуку.

Результати дослідження опубліковані на сервері препринтів arXiv

Джерело: Windows Central

Опублікував Олександр Федоткін

Теги LLMOpenAIІнтернетКонтентШтучний інтелект

23.10.2025 12:16

Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.

Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.

Деградація LLM-моделей ШІ може вбити інтернет за три роки, — дослідження Корнелльського університету

Читайте також