Датасет LAION-5B содержит более 5 млрд изображений и служит учебной базой для многих нейросетей, таких, как Stable Diffusion.
Согласно недавнему исследованию Стэнфордской Интернет-обсерватории, в наборе данных также обнаружены тысячи фрагментов с жестоким обращением с детьми, которые могут способствовать созданию опасного реалистического контента в генераторах изображений.
Представитель организации, стоящей за LAION-5B, заявил, что они соблюдают «политику нулевой терпимости» к незаконному контенту и временно удаляют набор данных, чтобы убедиться в его безопасности и переопубликовать.
«Этот отчет сосредоточен на наборе данных LAION-5B в целом. ИИ-модели Stability тренировались на его отфильтрованном подмножестве», — сказали в Stability AI, британском стартапе искусственного интеллекта, который финансировал и популяризировал Stable Diffusion.
LAION-5B или его подмножество использовались для создания нескольких версий Stable Diffusion — более новая, Stable Diffusion 2.0, была обучена на данных, существенно отфильтровавших «опасные» материалы, что значительно усложнило пользователям создание откровенных изображений. Но Stable Diffusion 1.5 действительно генерирует сексуальный контент и все еще используется в Интернете.
Пресс-секретарь компании также сказал, что Stable Diffusion 1.5 вообще была выпущена не Stability AI, а Runway, видеостартапом с искусственным интеллектом, который помог создать оригинальную версию Stable Diffusion (здесь несколько смешная ситуация, поскольку при выпуске этой версии Stability AI и не упомянула Runway, присвоив себе все награды).
«Мы добавили фильтры для перехвата опасных запросов или опасных результатов, а также инвестировали в функции маркировки содержимого, чтобы помочь идентифицировать изображения, созданные на нашей платформе. Эти уровни смягчения усложняют неправильное использование искусственного интеллекта злоумышленниками», — добавили в компании.
LAION-5B был выпущен в 2022 году и использует необработанный HTML-код, собранный калифорнийской некоммерческой организацией, чтобы искать изображения в Интернете и связывать их с описаниями. Месяцами на дискуссионных форумах и в социальных сетях ходили слухи о том, что набор данных содержит незаконные изображения.
«Насколько нам известно, это первая попытка фактически количественно определить и подтвердить опасения», — сказал Дэвид Тиль, главный технолог Стэнфордской интернет-обсерватории.
Исследователи также ранее обнаружили, что генеративные модели изображений искусственного интеллекта могут создавать CSAM, но путем сочетания двух «концепций», таких, как дети и сексуальная активность. Тиль сказал, что новое исследование показывает, что эти модели могут генерировать такие незаконные изображения через некоторые основные данные.
Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.
Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.