El nuevo sistema de seguridad de Microsoft «atrapa» alucinaciones en las apps de IA de los clientes de Azure

El equipo de Inteligencia Artificial Responsable de Microsoft ha desarrollado varias funciones de seguridad nuevas para los clientes de la plataforma Azure AI Studio.

Las herramientas, creadas a partir de un gran modelo lingüístico, pueden detectar posibles vulnerabilidades en los sistemas, supervisar «alucinaciones plausibles» de la IA y bloquear en tiempo real — indicaciones maliciosas cuando los clientes de Azure AI trabajan con cualquier modelo alojado en la plataforma, según Sarah Baird, responsable de seguridad del equipo.

«Sabemos que no todos los clientes tienen experiencia con ataques instantáneos, así que el sistema de evaluación genera las indicaciones necesarias para simular este tipo de ataques. Después, los clientes pueden obtener la evaluación y ver los resultados»», afirma.

El sistema puede mitigar potencialmente las controversias sobre la IA generativa causadas por respuestas no deseadas o no intencionadas — como las recientes con falsificaciones descaradas sobre famosos en el generador de imágenes Microsoft Designer o resultados históricamente inexactos de Google Geminio molestar imágenes de personajes animados pilotando un avión hacia las Torres Gemelasgenerado por Bing.

Actualmente hay tres funciones disponibles en la versión preliminar en Azure AI:

Prompt Shieldsque bloquea las consultas rápidas o las indirectas malintencionadas que hacen que los modelos olviden sus datos de entrenamiento;
Groundedness Detectionque detecta y bloquea las alucinaciones;
Función de evaluación de la seguridadque pondera las vulnerabilidades del modelo.

Próximamente se incorporarán otras dos funciones para guiar a los modelos hacia resultados seguros y seguir consejos para señalar a los usuarios potencialmente problemáticos.

Tanto si un dato lo introduce un usuario como si lo hace un modelo que procesa datos de terceros, el sistema de seguimiento lo evaluará para ver si desencadena alguna palabra prohibida o tiene pistas ocultas antes de decidir si lo envía al modelo para que responda. A continuación, el sistema revisa la respuesta y la verifica, si la modelo estaba alucinando (es decir, proporcionó datos falsos).

En el futuro, los clientes de Azure también podrán recibir informes sobre los usuarios que intenten iniciar salidas inseguras. Baird afirma que esto permitirá a los administradores de sistemas distinguir entre equipos rojos y personas con intenciones maliciosas.

Cabe señalar que las características de seguridad están inmediatamente «conectadas» a GPT-4 y otros modelos populares como Llama 2. Sin embargo, dado que la colección de modelos de Azure contiene muchos sistemas de IA — los usuarios de sistemas de código abierto menos utilizados pueden tener que añadirlos manualmente.

Fuente: The Verge

El nuevo sistema de seguridad de Microsoft «atrapa» alucinaciones en las apps de IA de los clientes de Azure

Your comment (optional):