У наборі даних, на яких навчалась Stable Diffusion, виявили понад 1000 зображень із насильством над дітьми

Опубликовал
Катерина Даньшина

Датасет LAION-5B загалом містить понад 5 млрд зображень і слугує навчальною базою для багатьох нейромереж, як-от Stable Diffusion.

Згідно з нещодавнім дослідженням Стенфордської Інтернет-обсерваторії, у наборі даних також виявили тисячі фрагментів з жорстоким поводженням з дітьми, що можуть сприяти створенню небезпечного реалістичного контенту у генераторах зображень.

Представник організації, яка стоїть за LAION-5B, заявив, що вони дотримуються «політики нульової терпимості» до незаконного контенту і тимчасово видаляють набір даних, аби переконатися у його безпечності та переопублікувати.

«Цей звіт зосереджений на наборі даних LAION-5B в цілому. ШІ-моделі Stability тренувалися на його відфільтрованій підмножині», — сказали у Stability AI, британському стартапі штучного інтелекту, який фінансував і популяризував Stable Diffusion.

LAION-5B або його підмножини використовувалися для створення кількох версій Stable Diffusion — новіша, Stable Diffusion 2.0, була навчена на даних, які суттєво відфільтрували «небезпечні» матеріали в наборі даних, що значно ускладнило користувачам створення відвертих зображень. Але Stable Diffusion 1.5 дійсно генерує відверто сексуальний вміст і все ще використовується в Інтернеті.

Курс Quality Assurance (QA) від Mate academy.
Курс QA — ідеальний для новачка. Від основ тестування до складних стратегій — опануйте всі технології, щоб жодна помилка не змогла вас оминути. Ми впевнені в якості нашого курсу, тому гарантуємо вам працевлаштування після його завершення.
Зареєструватись на курс

Прессекретар компанії також сказав, що Stable Diffusion 1.5 взагалі була випущена не Stability AI, а Runway, відеостартапом зі штучним інтелектом, який допоміг створити оригінальну версію Stable Diffusion (тут дещо смішна ситуація, оскільки під час випуску цієї версії Stability AI й не згадала Runway, присвоївши собі усі заслуги).

«Ми додали фільтри для перехоплення небезпечних запитів або небезпечних результатів, а також інвестували в функції маркування вмісту, щоб допомогти ідентифікувати зображення, створені на нашій платформі. Ці рівні пом’якшення ускладнюють неправильне використання штучного інтелекту зловмисниками», — додали у компанії.

LAION-5B був випущений у 2022 році та використовує необроблений HTML-код, зібраний каліфорнійською некомерційною організацією, щоб шукати зображення в Інтернеті та пов’язувати їх з описами. Місяцями на дискусійних форумах і в соціальних мережах ширилися чутки про те, що набір даних містить незаконні зображення.

«Наскільки нам відомо, це перша спроба фактично кількісно визначити та підтвердити занепокоєння», — сказав Девід Тіль, головний технолог Стенфордської інтернет-обсерваторії.

Дослідники Стенфордської Інтернет-обсерваторії раніше також виявили, що генеративні моделі зображень штучного інтелекту можуть створювати CSAM, але шляхом поєднання двох «концепцій», таких як діти та сексуальна активність. Тіль сказав, що нове дослідження показує, що ці моделі можуть генерувати такі незаконні зображення через деякі основні дані.

Джерело: Engadget, Bloomberg

Disqus Comments Loading...