Нова система безпеки Microsoft «вловлює» галюцинації в ШІ-програмах клієнтів Azure

Опубликовал
Катерина Даньшина

Фахівці підрозділу відповідального штучного інтелекту Microsoft розробили кілька нових функцій безпеки для клієнтів платформи Azure AI Studio.

Керівниця підрозділу Сара Берд каже, що ці інструменти, побудовані на базі великої мовної моделі, можуть виявляти потенційні вразливості у системах, відстежувати «правдоподібні» галюцинації ШІ й блокувати зловмисні підказки в режимі реального часу — коли клієнти Azure AI працюють з будь-якою моделлю, розмішеною на платформі.

«Ми знаємо, що не всі клієнти мають досвід у миттєвих атаках, тому система оцінки генерує підказки, необхідні для імітації таких типів атак. Тоді клієнти можуть отримати оцінку та побачити результати», — каже вона.

Система потенційно може нівелювати суперечки щодо генеративного ШІ, спричинені небажаними або ненавмисними відповідями — як-от нещодавні з відвертими фейками про знаменитостей в генераторі зображень Microsoft Designer чи історично неточними результатами від Google Gemini, або тривожними зображеннями анімаційних героїв, який пілотують літак у напрямку до веж-близнюків, згенерованими Bing.

Наразі в попередній версії на Azure AI доступні три функції:

Онлайн-курс "Нотації BPMN" від Laba.
Опануйте мову BPMN для візуалізації бізнес-процесів, щоб впорядкувати хаос у них.Після курсу ви точно знатимете, що саме обрати для розв’язання завдань вашого бізнесу.
Дізнатись більше
  • Prompt Shields, яка блокує швидкі запити або зловмисні підказки, які змушують моделі забувати свої навчальні дані;
  • Groundedness Detection, яка знаходить і блокує галюцинації;
  • Функція оцінки безпеки, яка зважує вразливості моделі.

Дві інші функції для спрямування моделей на безпечні результати та відстеження підказок для позначення потенційно проблемних користувачів з’являться незабаром.

Незалежно від того, вводить підказку користувач чи модель обробляє дані третьої сторони, система моніторингу оцінить її, щоб побачити, чи запускає вона якісь заборонені слова, чи має приховані підказки, перш ніж вирішить надіслати її моделі для відповіді. Після цього система переглядає відповідь та перевіряє, чи не галюцинувала модель (тобто видавала помилкові дані).

У майбутньому клієнти Azure також зможуть отримувати звіти про користувачів, які намагаються ініціювати небезпечні виходи. Берд каже, що це дозволить системним адміністраторам розрізняти червоні команди та людей зі зловмисними намірами.

Зазначається, що функції безпеки одразу «підключаються» до GPT-4 та інших популярних моделей, таких як Llama 2. Однак, оскільки колекція моделей Azure містить багато систем штучного інтелекту — користувачам менш використовуваних систем з відкритим кодом, можливо, доведеться додати їх вручну.

Джерело: The Verge

Disqus Comments Loading...