Los modelos de IA pueden distorsionarse fácilmente comprando dominios de 60 dólares o editando Wikipedia — investigación

Опубликовал

Андрей Русанов

25.03.2024 08:42

Un grupo de investigadores de IA descubrió recientemente que, por tan sólo 60 dólares, un atacante puede manipular los conjuntos de datos generados por herramientas de IA como ChatGPT.

Los chatbots o generadores de imágenes pueden producir respuestas e imágenes sofisticadas aprendiendo de terabytes de datos de Internet. Florian Tramer, profesor asociado de informática en la ETH de Zúrich, afirma que se trata de una forma eficaz de aprender. Pero este método también significa que las herramientas de IA pueden entrenarse con datos falsos. Esta es una de las razones por las que los chatbots pueden tener sesgos o simplemente dar respuestas erróneas.

Tramer y un equipo de científicos en un estudio publicado en arXiv, buscaban una respuesta a la pregunta de si es posible «envenenar» deliberadamente los datos con los que se entrena un modelo de inteligencia artificial. Descubrieron que con algo de dinero de sobra y acceso a soluciones técnicas, un atacante de bajo nivel podría manipular una cantidad relativamente pequeña de datos, lo que es suficiente para hacer que un gran modelo lingüístico produzca respuestas incorrectas.

Los investigadores consideraron dos tipos de ataques. Una forma es comprar dominios caducados, que pueden costar tan sólo 10 dólares al año por cada URL que aloje la información requerida. Por 60 dólares, un atacante puede controlar y «envenenar» al menos el 0,01% del conjunto de datos.

Los investigadores probaron este ataque analizando conjuntos de datos en los que se basan otros investigadores para entrenar modelos lingüísticos a gran escala del mundo real y comprándoles dominios caducados. A continuación, el equipo realizó un seguimiento de la frecuencia con la que los investigadores descargaban datos de dominios pertenecientes al equipo de investigación.

«Un solo atacante puede controlar una parte significativa de los datos utilizados para entrenar la próxima generación de modelos de aprendizaje automático e influir en cómo se comporta ese modelo,» afirma Tramer.

Los científicos también han investigado la posibilidad de envenenar Wikipedia, ya que el sitio puede servir como principal fuente de datos para los modelos lingüísticos. Los datos relativamente de alta calidad de Wikipedia pueden ser una buena fuente para el entrenamiento de IA a pesar de su pequeña cuota en Internet. El ataque consistió en editar páginas de Wikipedia.

Wikipedia no permite a los investigadores tomar datos directamente de su sitio web, sino que proporciona copias de páginas que pueden descargarse. Estas instantáneas se toman a intervalos conocidos, regulares y predecibles. Esto significa que un atacante puede editar Wikipedia justo antes de que un moderador pueda deshacer los cambios, y antes de que el sitio tome las instantáneas.

«Esto significa que si quiero poner basura en una página de Wikipedia… simplemente haré algunos cálculos matemáticos, calcularé que esta página en particular se guardará mañana a las 15:15, y entonces le añadiré basura a las 15:14».

Los científicos no editaron los datos en tiempo real, sino que calcularon la eficacia que podría tener un atacante. Su estimación, muy conservadora, era que al menos el 5% de las ediciones realizadas por el atacante saldrían adelante. normalmente el porcentaje es mayor, pero incluso esto es suficiente para provocar en el modelo un comportamiento no deseado.

El equipo de investigación presentó los resultados en Wikipedia y ofreció sugerencias de medidas de seguridad, entre ellas aleatorizar el tiempo durante el cual el sitio toma instantáneas de las páginas.

Según los científicos, si los ataques se limitan a los chatbots, el envenenamiento de datos no será un problema inmediato. Sin embargo, en el futuro, las herramientas de IA empezarán a interactuar más con fuentes externas — navegar por la web, leer correos electrónicos, acceder a calendarios, etc.

«Desde el punto de vista de la seguridad, estas cosas son una pesadilla», dice Tramer. Si se piratea cualquier parte del sistema, un atacante podría, en teoría, ordenar a un modelo de IA que buscara el correo electrónico o el número de tarjeta de crédito de alguien.

El investigador añade que el envenenamiento de datos ni siquiera es necesario en estos momentos debido a las deficiencias existentes en los modelos de IA. E identificar las trampas de estas herramientas es casi tan fácil como hacer que «los modelos se comporten mal».

«En este momento, los modelos que tenemos son lo suficientemente frágiles como para que ni siquiera sea necesario envenenarlos,» afirmó.

Fuente: Business Insider

Los comentarios de Disqus están cargando....

Поделитесь в соцсетях

Опубликовал

Андрей Русанов

Теги CientíficosHackers.HacksInteligencia artificialWikipedia

25.03.2024 08:42

Los modelos de IA pueden distorsionarse fácilmente comprando dominios de 60 dólares o editando Wikipedia — investigación

Leer también