Una destacada empresa en el ámbito de la inteligencia artificial ha puesto al descubierto el lado oscuro de esta tecnología: una vez que se entrena con intenciones maliciosas, revertir el proceso se vuelve complicado, llegando incluso a que la propia IA oculte su malevolencia a los seres humanos.
Las personas cuentan todo tipo de mentiras para obtener lo que quieren. Y a medida que desarrollamos IAs cada vez más poderosas, surge una preocupación genuina de que una pueda ser tan —o incluso más— engañosa que nosotros.
Para poner esto último a prueba, investigadores de la compañía Anthropic, la Universidad de Oxford y varias otras instituciones, entrenaron deliberadamente a un modelo de lenguaje grande (LLM) para exhibir un comportamiento indeseable cuando se le presentaban ciertos desencadenantes. La idea era ver si podían detectar el comportamiento perjudicial mediante pruebas de seguridad y luego corregir el modelo utilizando técnicas como el aprendizaje por refuerzo.
Lo que descubrieron es que la IA actuaba como un «agente durmiente», aparentando comportarse de manera responsable mientras ocultaba su comportamiento nefasto con cada vez más sutileza a medida que los expertos intentaban probar y corregirlo. En algunos experimentos, la IA parecía hábil para saber cuándo ocultar su comportamiento malicioso para evitar ser detectada y eliminada, mejorando en ello con el tiempo.
Las motivaciones que podrían llevar a una inteligencia artificial a adoptar comportamientos perjudiciales son diversas, desde problemas incorporados durante su entrenamiento por parte de actores malintencionados hasta la aspiración de alcanzar objetivos políticos o económicos manipulando la propia definición de lo que se considera «malo».
En su estudio, los investigadores hacen hincapié en que, hasta el momento, los escenarios que han examinado no se han materializado. No obstante, a medida que la creciente popularidad de esta tecnología disruptiva persiste, su labor podría ser clave para adoptar las medidas necesarias y evitar un futuro reminiscente de Skynet.
Fuente: TMT. Edición: MP.
Científicos entrenan IA para ser maliciosa y luego descubren que no pueden revertir el proceso