Новини Технології 21.12.2023 о 11:41 comment views icon

У наборі даних, на яких навчалась Stable Diffusion, виявили понад 1000 зображень із насильством над дітьми

author avatar

Катерина Даньшина

Авторка новин

Розділ Технології виходить за підтримки

Датасет LAION-5B загалом містить понад 5 млрд зображень і слугує навчальною базою для багатьох нейромереж, як-от Stable Diffusion.

Згідно з нещодавнім дослідженням Стенфордської Інтернет-обсерваторії, у наборі даних також виявили тисячі фрагментів з жорстоким поводженням з дітьми, що можуть сприяти створенню небезпечного реалістичного контенту у генераторах зображень.

Представник організації, яка стоїть за LAION-5B, заявив, що вони дотримуються «політики нульової терпимості» до незаконного контенту і тимчасово видаляють набір даних, аби переконатися у його безпечності та переопублікувати.

«Цей звіт зосереджений на наборі даних LAION-5B в цілому. ШІ-моделі Stability тренувалися на його відфільтрованій підмножині», — сказали у Stability AI, британському стартапі штучного інтелекту, який фінансував і популяризував Stable Diffusion.

LAION-5B або його підмножини використовувалися для створення кількох версій Stable Diffusion — новіша, Stable Diffusion 2.0, була навчена на даних, які суттєво відфільтрували «небезпечні» матеріали в наборі даних, що значно ускладнило користувачам створення відвертих зображень. Але Stable Diffusion 1.5 дійсно генерує відверто сексуальний вміст і все ще використовується в Інтернеті.

Прессекретар компанії також сказав, що Stable Diffusion 1.5 взагалі була випущена не Stability AI, а Runway, відеостартапом зі штучним інтелектом, який допоміг створити оригінальну версію Stable Diffusion (тут дещо смішна ситуація, оскільки під час випуску цієї версії Stability AI й не згадала Runway, присвоївши собі усі заслуги).

«Ми додали фільтри для перехоплення небезпечних запитів або небезпечних результатів, а також інвестували в функції маркування вмісту, щоб допомогти ідентифікувати зображення, створені на нашій платформі. Ці рівні пом’якшення ускладнюють неправильне використання штучного інтелекту зловмисниками», — додали у компанії.

LAION-5B був випущений у 2022 році та використовує необроблений HTML-код, зібраний каліфорнійською некомерційною організацією, щоб шукати зображення в Інтернеті та пов’язувати їх з описами. Місяцями на дискусійних форумах і в соціальних мережах ширилися чутки про те, що набір даних містить незаконні зображення.

«Наскільки нам відомо, це перша спроба фактично кількісно визначити та підтвердити занепокоєння», — сказав Девід Тіль, головний технолог Стенфордської інтернет-обсерваторії.

Дослідники Стенфордської Інтернет-обсерваторії раніше також виявили, що генеративні моделі зображень штучного інтелекту можуть створювати CSAM, але шляхом поєднання двох «концепцій», таких як діти та сексуальна активність. Тіль сказав, що нове дослідження показує, що ці моделі можуть генерувати такі незаконні зображення через деякі основні дані.

Джерело: Engadget, Bloomberg

Розділ Технології виходить за підтримки

Favbet Tech – це ІТ-компанія зі 100% украі‌нською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологіи‌ та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців.


Що думаєте про цю статтю?
Голосів:
Файно є
Файно є
Йой, най буде!
Йой, най буде!
Трясця!
Трясця!
Ну такої...
Ну такої...
Бісить, аж тіпає!
Бісить, аж тіпає!
Loading comments...

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: