El nuevo esfuerzo busca construir tomadores de decisiones de IA confiables para escenarios donde la verdad básica no existe
Las operaciones militares, desde el combate hasta la selección médica y el socorro en casos de desastre, requieren una toma de decisiones compleja y rápida en situaciones dinámicas en las que a menudo no hay una única respuesta correcta. Dos líderes militares experimentados que enfrentan el mismo escenario en el campo de batalla, por ejemplo, pueden tomar diferentes decisiones tácticas cuando se enfrentan a opciones difíciles. A medida que los sistemas de IA se vuelven más avanzados en el trabajo en equipo con humanos, es vital generar una confianza humana adecuada en las habilidades de la IA para tomar decisiones acertadas. Captar las características clave que subyacen a la toma de decisiones por parte de expertos humanos en entornos dinámicos y representar computacionalmente esos datos en los tomadores de decisiones algorítmicas puede ser un elemento esencial para garantizar que los algoritmos tomen decisiones confiables en circunstancias difíciles.
DARPA anunció el programa In the Moment (ITM) , que busca cuantificar la alineación de algoritmos con tomadores de decisiones humanos confiables en dominios difíciles donde no hay una respuesta correcta acordada. ITM tiene como objetivo evaluar y crear tomadores de decisiones algorítmicos confiables para operaciones del Departamento de Defensa (DoD) de misión crítica.
“ITM es diferente de los enfoques típicos de desarrollo de IA que requieren un acuerdo humano sobre los resultados correctos”, dijo Matt Turek, gerente de programa de ITM. “La falta de una respuesta correcta en escenarios difíciles nos impide utilizar técnicas de evaluación de IA convencionales, que implícitamente requieren el acuerdo humano para crear datos reales”.
Para ilustrar, los algoritmos de automóviles autónomos se pueden basar en la verdad sobre el terreno para las respuestas de conducción correctas e incorrectas basadas en las señales de tráfico y las reglas de la carretera que no cambian. Un enfoque factible en esos escenarios es codificar valores de riesgo en el entorno de simulación utilizado para entrenar algoritmos de automóviles autónomos.
“Cocinar valores de riesgo de talla única no funcionará desde la perspectiva del Departamento de Defensa porque las situaciones de combate evolucionan rápidamente y la intención del comandante cambia de un escenario a otro”, dijo Turek. “El Departamento de Defensa necesita enfoques rigurosos, cuantificables y escalables para evaluar y construir sistemas algorítmicos para la toma de decisiones difíciles donde la verdad objetiva del terreno no está disponible. Las decisiones difíciles son aquellas en las que los tomadores de decisiones de confianza no están de acuerdo, no existe una respuesta correcta y la incertidumbre, la presión del tiempo y los valores en conflicto crean importantes desafíos en la toma de decisiones”.
ITM se está inspirando en el campo del análisis de imágenes médicas, donde se han desarrollado técnicas para evaluar sistemas incluso cuando los expertos pueden estar en desacuerdo sobre la realidad. Por ejemplo, los límites de los órganos o las patologías pueden no estar claros o estar en disputa entre los radiólogos. Para superar la falta de un límite verdadero, un límite trazado algorítmicamente se compara con la distribución de límites dibujados por expertos humanos. Si el límite del algoritmo se encuentra dentro de la distribución de límites trazados por expertos humanos en muchas pruebas, se dice que el algoritmo es comparable al desempeño humano.
“Sobre la base de la información de imágenes médicas, ITM desarrollará un marco cuantitativo para evaluar la toma de decisiones mediante algoritmos en dominios muy difíciles”, dijo Turek. “Crearemos escenarios realistas y desafiantes para la toma de decisiones que provocarán respuestas de humanos confiables para capturar una distribución de los atributos clave de los tomadores de decisiones. Luego someteremos un algoritmo de toma de decisiones a los mismos escenarios desafiantes y mapearemos sus respuestas en la distribución de referencia para compararlo con los tomadores de decisiones humanos de confianza”.
El programa tiene cuatro áreas técnicas. El primero es desarrollar técnicas de caracterización de los tomadores de decisiones que identifiquen y cuantifiquen los atributos clave de los tomadores de decisiones en dominios difíciles. La segunda área técnica es crear una puntuación de alineación cuantitativa entre un tomador de decisiones humano y un algoritmo de manera que prediga la confianza del usuario final. Una tercera área técnica es responsable del diseño y ejecución de la evaluación del programa. El área técnica final es responsable de la integración de políticas y prácticas; proporcionar experiencia legal, moral y ética al programa; apoyar el desarrollo de futuras políticas y conceptos de operaciones (CONOPS) del Departamento de Defensa; supervisar el desarrollo de un proceso de operaciones éticas (DevEthOps); y la realización de eventos de divulgación para la comunidad política más amplia.
ITM es un programa de 3,5 años que abarca dos fases con potencial para una tercera fase dedicada a madurar la tecnología con un socio de transición. La primera fase tiene una duración de 24 meses y se centra en el triaje de unidades pequeñas como escenario de toma de decisiones. La Fase 2 tiene una duración de 18 meses y aumenta la complejidad de la toma de decisiones al centrarse en eventos con víctimas masivas.
Para evaluar todo el proceso de ITM, a múltiples tomadores de decisiones humanos y algorítmicos se les presentarán escenarios de los dominios de triaje médico (Fase 1) o víctimas en masa (Fase 2). Los tomadores de decisiones algorítmicos incluirán un tomador de decisiones algorítmico alineado con conocimiento de los atributos humanos clave de toma de decisiones y un tomador de decisiones algorítmico de referencia sin conocimiento de esos atributos humanos clave. También se incluirá un profesional de triaje humano como control experimental.
“Vamos a recopilar las decisiones, las respuestas de cada uno de los responsables de la toma de decisiones, y las presentaremos a ciegas a múltiples profesionales de clasificación”, dijo Turek. “Esos profesionales de clasificación no sabrán si la respuesta proviene de un algoritmo alineado, un algoritmo de referencia o de un ser humano. Y la pregunta que podríamos plantearles a esos profesionales de triage es a qué responsable de la toma de decisiones delegarían, dándonos una medida de su disposición a confiar en esos responsables de la toma de decisiones en particular”.
Un Día de Proponentes virtual para posibles proponentes está programado para el 18 de marzo de 2022. Para obtener más información y detalles de registro, visite: https://go.usa.gov/xzjc2 . Se espera que una solicitud de anuncio amplio de agencia (BAA) esté disponible en SAM.gov en las próximas semanas.