En el imaginario popular de Hollywood hay un escenario que se repite una y otra vez: inteligencias artificiales de avanzada que, con una serie de simples comandos, pueden hackear complejos sistemas de seguridad ingresando a computadoras de gobiernos o compañías para robar información sensible. Si bien eso es algo que por ahora fue dejado para el séptimo arte, poco a poco se está acercando a la realidad.
Lo que pasó fue que un grupo de científicos de la Universidad de Urbana-Champaign en Illinois publicó un paper donde revelaron que GPT-4 puede escribir código malicioso para explotar vulnerabilidades ya conocidas usando solo información públicamente disponible a la que cualquiera puede acceder.
De la fantasía a la vida real
Los científicos Richard Fang, Rohan Bindu, Akul Gupta y Daniel Kang, testearon 10 de los modelos de lenguaje más importantes que hay dando vueltas para ver si podían explotar 15 vulnerabilidades que habían sido descubiertas hace relativamente poco y de las cuales ya había información circulando en internet.
Según publicaron los investigadores en el paper, los datos consumidos por los algoritmos de inteligencia artificial se tratan de vulnerabilidades de alta gravedad que forman parte del “mundo real”. Los expertos descubrieron que si se le daba la descripción del problema a GPT-4, el modelo de OpenAI podía explotar la vulnerabilidad en un 87% de los casos.
Cómo resolver el problema
Y si bien los investigadores explican que estos modelos no pueden hacer algo que un humano experto no podría hacer, sí puede hacerlo mucho más rápido y, también, gastando mucho menos.
El problema es que los desarrolladores de los modelos de lenguaje no tienen una buena forma de luchar contra este tipo de problemáticas. Si bloquean por completo el entrenamiento relacionado a esta temática, la IA no podrá ayudar a que expertos en seguridad informática utilicen estos modelos para luchar contra la cantidad de amenazas que hay actualmente. Si sí los entrenan, pueden ser utilizados por hackers con malas intenciones.
¿Cómo resolverlo? Daniel Kang, parte del equipo que publicó el paper, sugirió un “enfoque de dos niveles”. Un modelo público limitado que no pueda realizar lo reveló su investigación y otro paralelo con un acceso un poco menos censurado pero restringido solo para aquellos desarrolladores autorizados a utilizarlo.
Alerta en políticos y desarrolladores
Al haber sido una de las primeras investigaciones que revelaba este problema, llamó muchísimo la atención. Tanto que llegó al mundo de la política.
“Ya hablé con personas del Congreso sobre estos temas y parece que están pensando al respecto. Espero que nuestro trabajo ayude a informar algunos de estos procesos de toma de decisiones”, dijo Kang, uno de los científicos que llevó adelante el estudio, en un comunicado que publicó la universidad.
Incluso desde OpenAI pararon las antenas. La compañía se puso en contacto con el grupo de científico para que no revelaran los prompts que utilizaron para llegar a sus resultados así actores con intenciones no tan buenas no pudieran usarlos.
“No queremos que nuestras herramientas se utilicen con fines maliciosos y siempre estamos trabajando para hacer que nuestros sistemas sean más sólidos contra este tipo de abuso. Agradecemos a los investigadores por compartir su trabajo con nosotros”, dijeron desde la empresa.