
Новое исследование ученых из Корнелльского университета продемонстрировало, что Большие языковые модели на базе ИИ могут деградировать из-за низкокачественного контента из интернета, который используется в процессе их обучения.
Anthropic, OpenAI, Google и другие ведущие разработчики моделей ИИ до сих пор зависят от контента из интернета, на котором обучают собственные LLM. В прошлом году сообщалось, что ведущие разработчики искусственного интеллекта столкнулись с дефицитом качественной информации для обучения ИИ, что помешало разработке более продвинутых моделей.
По результатам исследования подчеркивается, что длительное воздействие низкокачественного контента может негативно повлиять на когнитивные способности людей, способность к рассуждению и концентрации внимания. То же самое касается и ИИ. Исследователи использовали два показателя для оценки и выявления низкокачественного контента.
Первый тест сосредотачивался на взаимодействии с короткими вирусными публикациями, вызывающими высокий уровень взаимодействия. Второй тест касался семантического качества и преимущественно охватывал низкокачественные публикации с кликбейтными заголовками и стилем написания.
Ученые использовали эти показатели для создания наборов данных, содержащих разный объем ненужной или качественной информации. Они использовали эти наборы данных для определения влияния низкокачественного контента на LLM, такие как Llama 3 и Qwen 2.5.
Исследование продемонстрировало, что точность LLM, использовавших исключительно мусорный контент, снижалась с 74,9% до 57,2%. Их способность понимать контент в долгосрочной перспективе также снижалась с 84,4% до 52,3%. Исследователи обнаружили, что когнитивные способности пользователей и способность понимать модели ИИ при длительном использовании низкокачественного контента только ухудшаются.
В ходе исследования также было установлено, что длительное воздействие некачественного контента разрушает этическую последовательность ИИ-моделей, приводя к так называемому «дрейфу личности». Это делает LLM еще более непредсказуемыми и склонными давать неправильные ответы. Из-за некачественного контента модели ИИ также часто отказывались от последовательных алгоритмов рассуждения и поспешно генерировали поверхностные ответы.
В течение последних нескольких месяцев ведущие деятели технологической сферы, в частности, соучредитель Reddit Алексис Оганян и гендиректор OpenAI Сэм Альтман, вызвали дискуссии относительно того, что «теория мертвого интернета» становится реальностью. По словам Алексиса Оганяна, большая часть интернета уже умерла после появления чатботов. Однако он предрекает появление соцсетей нового поколения, которые будут более адаптированы под людей.
Сэм Альтман также заявляет, что «теория мертвого интернета» воплощается в реальность прямо у нас на глазах. Гендиректор OpenAI также заявил, что большинство учетных записей соцсети X управляются LLM.
В прошлом году исследование Amazon Web Services (AWS) в прошлом году продемонстрировало, что 57% контента, который публикуется в сети, создается или переводится с использованием алгоритмов ИИ. Это негативно влияет на качество результатов поиска.
Результаты исследования опубликованы на сервере препринтов arXiv
Источник: Windows Central
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: