Юрвідділ Microsoft начебто змусив замовкнути інженера, який висловив занепокоєння щодо вразливості DALL-E 3

Опубликовал
Юрій Орос

Інженер Microsoft стверджує, що DALL-E 3 від OpenAI має вразливості в системі безпеки, які можуть дати змогу користувачам генерувати зображення насильства або відверті зображення (подібні до тих, які нещодавно були спрямовані проти Тейлор Свіфт). Втім, юридичний відділ компанії заблокував спроби інженерного лідера Microsoft Шейна Джонса попередити громадськість про цю вразливість. «Викривач», як він себе називає, зараз передає своє повідомлення на Капітолійський пагорб (Сенат США).

Я дійшов висновку, що DALL-E 3 становить загрозу громадській безпеці і повинен бути вилучений з публічного доступу, поки OpenAI не усуне ризики, пов’язані з цією моделлю.

— написав Джонс сенаторам США Петті Мюррей (D-WA) і Марії Кантвелл (D-WA), депутату Адаму Сміту (D-WA 9-й округ) і генеральному прокурору штату Вашингтон Бобу Фергюсону (D). 

Джонс стверджує, що на початку грудня він виявив експлойт, який дає змогу обійти захисні системи DALL-E 3. Він каже, що повідомив про цю проблему своєму керівництву в Microsoft, яке доручило йому «особисто повідомити про проблему безпосередньо в OpenAI». Після цього він стверджує, що дізнався, що ця вада може дозволити генерувати «насильницькі й тривожні шкідливі зображення», передає Engadget.

Потім Джонс спробував привернути увагу громадськості до своєї проблеми в пості на LinkedIn. «Вранці 14 грудня 2023 року я публічно опублікував у LinkedIn лист до ради директорів OpenAI із закликом призупинити доступ до DALL-E 3)», — написав Джонс. «Оскільки Microsoft є спостерігачем у раді директорів OpenAI, і я раніше поділився своїми побоюваннями зі своєю командою керівників, я негайно повідомив Microsoft про лист, який я опублікував».

Курс English For Tech course від Enlgish4IT.
Лише 7 тижнів по 20-30 хвилин щоденного навчання допоможуть вам подолати комунікативні бар'єри. Отримайте знижку 10% за промокодом ITCENG.
Дійзнайтеся більше

Незабаром після того, як я розкрив лист своєму керівництву, зі мною зв’язався мій менеджер і повідомив, що юридичний відділ Microsoft зажадав, щоб я видалив цей пост. Він сказав мені, що юридичний відділ Microsoft дуже скоро надішле електронною поштою конкретне обґрунтування запиту на видалення, і що я повинен видалити його негайно, не чекаючи на електронного листа від юриста.

— написав він у своєму листі.

Джонс виконав вимогу, але, за його словами, більш детальної відповіді від юридичного відділу Microsoft так і не надійшло. «Я так і не отримав від них жодних пояснень чи виправдань». Подальші спроби дізнатися більше від юридичного відділу компанії були проігноровані. «Юридичний відділ Microsoft досі не відповів і не зв’язався зі мною напряму».

Представник OpenAI написав Engadget в електронному листі:

Ми негайно розслідували звіт співробітника Microsoft, коли отримали його 1 грудня, і підтвердили, що метод, яким він поділився, не обходить наші системи безпеки. Безпека є нашим пріоритетом, і ми застосовуємо багатосторонній підхід. В основі моделі DALL-E 3 ми працювали над тим, щоб відфільтрувати найбільш відвертий контент з навчальних даних, включаючи графічний контент сексуального характеру і насильства, а також розробили надійні класифікатори зображень, які не дають моделі генерувати шкідливі зображення.

Ми також впровадили додаткові заходи безпеки для наших продуктів, ChatGPT і DALL-E API — в тому числі відхиляємо запити, в яких запитується ім’я публічної особи. Ми виявляємо і відхиляємо повідомлення, які порушують нашу політику, і фільтруємо всі згенеровані зображення перед тим, як вони будуть показані користувачеві. Ми використовуємо зовнішні експертні команди для перевірки на зловживання і посилення наших гарантій.

Тим часом представник Microsoft відповів: «Ми прагнемо розв’язувати всі проблеми, які виникають у співробітників, відповідно до політики нашої компанії, і цінуємо зусилля співробітників у вивченні та тестуванні наших новітніх технологій для подальшого підвищення їхньої безпеки. Що стосується обходів безпеки або проблем, які можуть мати потенційний вплив на наші послуги або наших партнерів, ми створили надійні внутрішні канали звітності для належного розслідування та усунення будь-яких проблем, якими ми рекомендували користуватися співробітникам, щоб ми могли належним чином перевірити його занепокоєння, перш ніж говорити про це публічно».

За словами «викривача», порно фейки Тейлор Свіфт, які поширилися в X, є однією з ілюстрацій того, до чого можуть призвести подібні вразливості, якщо їх не контролювати.

Microsoft знала про ці вразливості і потенціал для зловживань.

— підсумував Джонс.

Джонс закликає представників у Вашингтоні вжити заходів. Він пропонує уряду США створити систему звітності та відстеження конкретних вразливостей штучного інтелекту, захищаючи при цьому співробітників, які говорять про це:

Ми повинні притягнути компанії до відповідальності за безпеку їхньої продукції. Стурбовані працівники, такі як я, не повинні піддаватися залякуванням, щоб змусити їх мовчати.

Disqus Comments Loading...