La IA tiene un secreto estúpido: todavía no estamos seguros de cómo probar los niveles de inteligencia humana

Maniquí con una nube de inteligencia que oculta su cabeza
¿Eres tan inteligente como dices ser? Hakinmhan

Dos de los principales actores de la inteligencia artificial de San Francisco han desafiado al público a que proponga preguntas capaces de poner a prueba las capacidades de los grandes modelos de lenguaje (LLM, por sus siglas en inglés) como Google Gemini y o1 de OpenAI. Scale AI, que se especializa en preparar las grandes cantidades de datos con las que se entrenan los LLM, se asoció con el Centro para la Seguridad de la IA (CAIS, por sus siglas en inglés) para lanzar la iniciativa, Humanity’s Last Exam.

Con premios de US$5.000 (£3.800) para aquellos que respondan las 50 preguntas principales seleccionadas para la prueba, Scale y CAIS dicen que el objetivo es probar qué tan cerca estamos de lograr «sistemas de IA de nivel experto» utilizando la «coalición de expertos más grande y amplia de la historia».

¿Por qué hacer esto? Los principales estudiantes de máster ya están aprobando muchas pruebas establecidas en inteligencia, matemáticas y derecho , pero es difícil estar seguro de qué importancia tiene esto. En muchos casos, es posible que hayan aprendido de antemano las respuestas debido a las enormes cantidades de datos con las que se forman, incluido un porcentaje significativo de todo lo que hay en Internet.

Los datos son fundamentales en todo este ámbito. Están detrás del cambio de paradigma de la informática convencional a la IA, de “decirles” a “mostrarles” a las máquinas lo que tienen que hacer. Esto requiere buenos conjuntos de datos de entrenamiento, pero también buenas pruebas. Los desarrolladores suelen hacer esto utilizando datos que no se han utilizado anteriormente para el entrenamiento, conocidos en la jerga como “conjuntos de datos de prueba”.

Si los estudiantes de máster no son capaces de aprender de antemano las respuestas a exámenes establecidos, como los exámenes de abogacía, probablemente lo harán pronto. El sitio de análisis de IA Epoch estima que 2028 marcará el punto en el que las IA habrán leído efectivamente todo lo que los humanos hayan escrito. Un desafío igualmente importante es cómo seguir evaluando a las IA una vez que se haya cruzado ese Rubicón.

Por supuesto, Internet está en constante expansión y se agregan millones de nuevos elementos todos los días. ¿Podría eso solucionar estos problemas?

Tal vez, pero esto deriva en otra dificultad insidiosa, conocida como “ colapso del modelo ”. A medida que Internet se inunda cada vez más de material generado por IA que recircula en futuros conjuntos de entrenamiento de IA, esto puede hacer que las IA tengan un rendimiento cada vez peor. Para superar este problema, muchos desarrolladores ya están recopilando datos de las interacciones humanas de sus IA y agregando datos nuevos para el entrenamiento y las pruebas.

Algunos especialistas sostienen que las IA también necesitan “encarnarse”: moverse en el mundo real y adquirir sus propias experiencias, como lo hacen los humanos. Esto puede parecer descabellado hasta que te das cuenta de que Tesla lo ha estado haciendo durante años con sus autos. Otra oportunidad son los wearables humanos, como las populares gafas inteligentes Meta de Ray-Ban . Están equipadas con cámaras y micrófonos, y se pueden usar para recopilar grandes cantidades de datos de video y audio centrados en el ser humano.

Pruebas estrechas

Sin embargo, incluso si estos productos garantizan suficientes datos de entrenamiento en el futuro, aún existe el enigma de cómo definir y medir la inteligencia, en particular la inteligencia artificial general (IAG), es decir, una IA que iguala o supera la inteligencia humana.

Las pruebas tradicionales de coeficiente intelectual humano han sido controvertidas durante mucho tiempo por no captar la naturaleza multifacética de la inteligencia, que abarca todo, desde el lenguaje hasta las matemáticas, la empatía y el sentido de orientación.

Existe un problema análogo con las pruebas que se utilizan en las IA. Existen muchas pruebas bien establecidas que cubren tareas como resumir texto, comprenderlo, extraer inferencias correctas de la información, reconocer poses y gestos humanos y visión artificial.

Algunas pruebas se están retirando, generalmente porque las IA se desempeñan muy bien en ellas, pero son tan específicas de una tarea que son medidas muy estrechas de inteligencia. Por ejemplo, la IA que juega al ajedrez Stockfish está muy por delante de Magnus Carlsen, el jugador humano con mayor puntuación de todos los tiempos, en el sistema de clasificación Elo . Sin embargo, Stockfish es incapaz de realizar otras tareas, como comprender el lenguaje. Claramente, sería un error mezclar sus capacidades ajedrecísticas con una inteligencia más amplia.

Magnus Carlsen pensando en una jugada de ajedrez
Magnus Carlsen no es rival para Stockfish. Lilyana Vynogradova/Alamy

Pero ahora que las IA demuestran un comportamiento inteligente más amplio, el desafío es idear nuevos puntos de referencia para comparar y medir su progreso. Un enfoque notable proviene del ingeniero francés de Google François Chollet. Sostiene que la verdadera inteligencia radica en la capacidad de adaptar y generalizar el aprendizaje a situaciones nuevas e inéditas. En 2019, ideó el «corpus de abstracción y razonamiento» (ARC), una colección de acertijos en forma de cuadrículas visuales simples diseñadas para probar la capacidad de una IA para inferir y aplicar reglas abstractas.

A diferencia de los puntos de referencia anteriores que prueban el reconocimiento visual de objetos entrenando a una IA con millones de imágenes, cada una con información sobre los objetos que contiene, ARC le proporciona ejemplos mínimos por adelantado. La IA tiene que descifrar la lógica del rompecabezas y no puede simplemente aprender todas las respuestas posibles.

Aunque las pruebas de ARC no son particularmente difíciles de resolver para los humanos, hay un premio de 600.000 dólares estadounidenses para el primer sistema de IA que alcance una puntuación del 85 %. Al momento de escribir este artículo, estamos muy lejos de ese punto. Dos de los principales LLM recientes, o1 preview de OpenAI y Sonnet 3.5 de Anthropic, obtienen una puntuación del 21 % en la tabla de clasificación pública de ARC (conocida como ARC-AGI-Pub ).

Otro intento reciente con GPT-4o de OpenAI obtuvo un 50% , pero de forma un tanto controvertida porque el método generó miles de posibles soluciones antes de elegir la que ofrecía la mejor respuesta para la prueba. Incluso así, todavía estaba lejos de obtener el premio o de igualar el desempeño humano de más del 90% .

Si bien ARC sigue siendo uno de los intentos más creíbles de comprobar la inteligencia genuina en la IA en la actualidad, la iniciativa Scale/CAIS demuestra que la búsqueda de alternativas convincentes continúa. (Es fascinante que nunca veamos algunas de las preguntas premiadas. No se publicarán en Internet para garantizar que las IA no echen un vistazo a los exámenes).

Necesitamos saber cuándo las máquinas se están acercando al nivel de razonamiento humano, con todas las cuestiones de seguridad, éticas y morales que esto plantea. En ese punto, presumiblemente nos quedará una pregunta de examen aún más difícil: cómo comprobar si existe una superinteligencia. Esa es una tarea aún más compleja que debemos resolver.

https://theconversation.com/ai-has-a-stupid-secret-were-still-not-sure-how-to-test-for-human-levels-of-intelligence-240469

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.