El sistema es un avance en un tipo de tecnología llamada «visión artificial», que permite a los ordenadores leer e identificar imágenes visuales: en este caso puede identificar objetos basándose solo en perspectivas parciales, que luego completa mediante el aprendizaje automático.
Es un paso importante hacia los sistemas generales de inteligencia artificial: los ordenadores que aprenden solos, son intuitivos, toman decisiones basadas en el razonamiento e interactúan con los humanos de una manera similar a la humana.
Aunque los sistemas actuales de visión artificial de la IA son cada vez más potentes y capaces, son específicos para cada tarea, lo que significa que su capacidad para identificar lo que ven está limitada por lo que han sido entrenados y programados por los humanos.
Incluso los mejores sistemas de visión artificial de la actualidad no pueden crear una imagen completa de un objeto después de ver solo ciertas partes de él, y los sistemas pueden confundirse si ven el objeto en un entorno desconocido.
Los ingenieros han pretendido crear sistemas informáticos con esas habilidades, al igual que los humanos pueden entender que están mirando a un perro, incluso si el animal se esconde detrás de una silla y solo si ven las patas y la cola.
Los humanos, por supuesto, también pueden intuir fácilmente dónde se encuentran la cabeza del perro y el resto de su cuerpo, pero esa capacidad aún no la tienen la mayoría de los sistemas de inteligencia artificial.
Los sistemas actuales de visión artificial tampoco están diseñados para aprender por sí mismos. Deben recibir capacitación sobre qué aprender exactamente, generalmente revisando miles de imágenes en las que los objetos que intentan identificar están etiquetados para ellos.
Los ordenadores, por supuesto, tampoco pueden explicar su justificación para determinar qué representa el objeto en una foto: los sistemas basados en IA no crean una imagen interna o un modelo de sentido común de objetos aprendidos, como lo hacen los humanos. Hasta ahora.
Superando limitaciones
El nuevo método, descrito en PNAS, supera esas deficiencias. El enfoque se compone de tres grandes pasos. Primero, el sistema divide una imagen en partes pequeñas, que los investigadores llaman «viewlets». En segundo lugar, el ordenador aprende cómo estos viewlets se combinan para formar el objeto en cuestión. Y, por último, analiza qué otros objetos se encuentran en el área circundante y si la información sobre esos objetos es o no relevante para describir e identificar el objeto primario.
Para ayudar al nuevo sistema a «aprender» como los humanos, los ingenieros decidieron sumergirlo en una réplica web del entorno en el que viven los humanos. “Afortunadamente, Internet ofrece dos cosas que ayudan a un sistema de visión por ordenador inspirado en el cerebro a aprender de la misma manera que lo hacen los humanos», explica Vwani Roychowdhury, investigador principal del estudio, en un comunicado.
«Una de ellas es una gran cantidad de imágenes y videos que representan los mismos tipos de objetos. La segunda es que estos objetos se muestran desde muchas perspectivas (oscurecidos, de lejos y de cerca) y se colocan en diferentes tipos de entornos.»
Para desarrollar nuevo sistema de visión artificial, los investigadores se basaron en ideas de la psicología cognitiva y la neurociencia.
«Comenzando como los bebés, aprendemos qué es algo porque vemos muchos ejemplos de ello, en muchos contextos», señala Roychowdhury. «Ese aprendizaje contextual es una característica clave de nuestro cerebro y nos ayuda a construir modelos robustos de objetos que forman parte de una cosmovisión integrada donde todo está conectado funcionalmente».
Los investigadores probaron el sistema con aproximadamente 9.000 imágenes, cada una de ellas mostrando personas y otros objetos. El sistema de visión artificial pudo construir un modelo detallado del cuerpo humano sin guía externa y sin que se etiquetaran las imágenes.
Los ingenieros realizaron pruebas similares utilizando imágenes de motocicletas, automóviles y aviones. En todos los casos, su sistema funcionó mejor, o al menos tan bien,como los sistemas tradicionales de visión artificial que se han desarrollado con muchos años de capacitación.
Brain-inspired automated visual object discovery and detection. Lichao Chen, Sudhir Singh, Thomas Kailath, and Vwani Roychowdhury. PNAS, December 17, 2018. DOI:https://doi.org/10.1073/pnas.1802103115