Датасет LAION-5B содержит более 5 млрд изображений и служит учебной базой для многих нейросетей, таких, как Stable Diffusion.

Согласно недавнему исследованию Стэнфордской Интернет-обсерватории, в наборе данных также обнаружены тысячи фрагментов с жестоким обращением с детьми, которые могут способствовать созданию опасного реалистического контента в генераторах изображений.

Представитель организации, стоящей за LAION-5B, заявил, что они соблюдают «политику нулевой терпимости» к незаконному контенту и временно удаляют набор данных, чтобы убедиться в его безопасности и переопубликовать.

«Этот отчет сосредоточен на наборе данных LAION-5B в целом. ИИ-модели Stability тренировались на его отфильтрованном подмножестве», — сказали в Stability AI, британском стартапе искусственного интеллекта, который финансировал и популяризировал Stable Diffusion.

LAION-5B или его подмножество использовались для создания нескольких версий Stable Diffusion — более новая, Stable Diffusion 2.0, была обучена на данных, существенно отфильтровавших «опасные» материалы, что значительно усложнило пользователям создание откровенных изображений. Но Stable Diffusion 1.5 действительно генерирует сексуальный контент и все еще используется в Интернете.

Пресс-секретарь компании также сказал, что Stable Diffusion 1.5 вообще была выпущена не Stability AI, а Runway, видеостартапом с искусственным интеллектом, который помог создать оригинальную версию Stable Diffusion (здесь несколько смешная ситуация, поскольку при выпуске этой версии Stability AI и не упомянула Runway, присвоив себе все награды).

«Мы добавили фильтры для перехвата опасных запросов или опасных результатов, а также инвестировали в функции маркировки содержимого, чтобы помочь идентифицировать изображения, созданные на нашей платформе. Эти уровни смягчения усложняют неправильное использование искусственного интеллекта злоумышленниками», — добавили в компании.

LAION-5B был выпущен в 2022 году и использует необработанный HTML-код, собранный калифорнийской некоммерческой организацией, чтобы искать изображения в Интернете и связывать их с описаниями. Месяцами на дискуссионных форумах и в социальных сетях ходили слухи о том, что набор данных содержит незаконные изображения.

«Насколько нам известно, это первая попытка фактически количественно определить и подтвердить опасения», — сказал Дэвид Тиль, главный технолог Стэнфордской интернет-обсерватории.

Исследователи также ранее обнаружили, что генеративные модели изображений искусственного интеллекта могут создавать CSAM, но путем сочетания двух «концепций», таких, как дети и сексуальная активность. Тиль сказал, что новое исследование показывает, что эти модели могут генерировать такие незаконные изображения через некоторые основные данные.

Источник: Engadget, Bloomberg