Новая система безопасности Microsoft «улавливает» галлюцинации в ИИ-программах клиентов Azure

Опубликовал
Катерина Даньшина

Специалисты подразделения ответственного искусственного интеллекта Microsoft разработали несколько новых функций безопасности для клиентов платформы Azure AI Studio.

Руководитель подразделения Сара Берд говорит, что эти инструменты, построенные на базе обширной языковой модели, могут выявлять потенциальные уязвимости в системах, отслеживать «правдоподобные» галлюцинации ИИ и блокировать злонамеренные подсказки в режиме реального времени — когда клиенты Azure AI работают с любой моделью, размещенной на платформе.

«Мы знаем, что не все клиенты имеют опыт в мгновенных атаках, поэтому система оценки генерирует подсказки, необходимые для имитации таких типов атак. Тогда клиенты могут получить оценку и увидеть результаты», — говорит она.

Система потенциально может нивелировать споры о генеративном ИИ, вызванные нежелательными или непреднамеренными ответами — например, недавние с откровенными фейками о знаменитостях в генераторе изображений Microsoft Designer или исторически неточными результатами от Google Gemini, или тревожными изображениями анимационных героев, которые пилотируют самолет в башни-близнецы, сгенерированные Bing.

Сейчас в предварительной версии на Azure AI доступны три функции:

Курс Power Skills For Tech від Enlgish4IT.
Зменшіть кількість непорозумінь на робочому місці та станьте більш ефективним у спілкуванні в мультикультурній команді. Отримайте знижку 10% за промокодом ITCENG.
Реєстрація на курс
  • Prompt Shields, которая блокирует быстрые запросы или злонамеренные подсказки, что заставляют модели забывать свои учебные данные;
  • Groundedness Detection, которая находит и блокирует галлюцинации;
  • Функция оценки безопасности, которая взвешивает уязвимости модели.

Две другие функции для направления моделей на безопасные результаты и отслеживания подсказок для обозначения потенциально проблемных пользователей появятся в ближайшее время.

Независимо от того, вводит подсказку пользователь или модель обрабатывает данные третьей стороны, система мониторинга оценит ее, чтобы увидеть, запускает ли она какие-то запрещенные слова, имеет ли скрытые подсказки, прежде чем решит отправить ее модели для ответа. После этого система просматривает ответ и проверяет, не галлюцинировала ли модель (то есть выдавала ложные данные).

В будущем клиенты Azure также смогут получать отчеты о пользователях, которые пытаются инициировать опасные выходы. Берд говорит, что это позволит системным администраторам различать красные команды и людей со злонамеренными намерениями.

Отмечается, что функции безопасности сразу «подключаются» к GPT-4 и другим популярным моделям, таким как Llama 2. Однако, поскольку коллекция моделей Azure содержит много систем искусственного интеллекта — пользователям менее популярных систем с открытым исходным кодом возможно придется добавить их вручную.

Источник: The Verge

Disqus Comments Loading...