La moralización de las máquinas

Si has leído mis artículos anteriores; primero gracias, segundo, recordarás que hay IAs que toman decisiones importantes con la vida de personas, otras “tratan” de mentir para terminar su trabajo, algunas han decidido (aunque en simulaciones) matar personas para cumplir su objetivo (personas a las que no debían matar originalmente), cuando tomamos esto en cuenta cabe preguntarnos ¿Qué podemos hacer para asegurarnos de que las máquinas (IA) actúen de las maneras correctas?

La pregunta puede sentirse cargada por una razón importante, asume que la persona que activó, programó, comisionó etc. esta IA está actuando de la manera correcta, debe ser aparente para los lectores que los principales problemas con la IA en nuestros días y en el futuro cercano se deben a los usos que se les dan, a la intención de la persona o personas que se benefician de ella.

Aún así, asumiendo que todos usamos la IA (LLMs) de forma ética queda la pregunta inicial ya que aún cuando no le pidamos que mate, robe o tome acciones explícitamente malas se verá en casos cuya resolución no debería ser tan simple como un si o no,

¿Debe el banco recuperar esta casa? ¿Cuánta agua se debe asignar para una fábrica y cuanta para una zona residencial? Los casos son prácticamente infinitos.

fig(1) un terminator con programación moral no mataría a bebé Hitler

¿Qué es lo que se hace ahora?

La IA ha estado con nosotros de diferentes maneras prácticamente desde que existe lo que conoceríamos como las primeras computadoras, pero hasta hace poco este problema se ha convertido en algo que preocupa a tantas personas y esto es por el surgimiento de modelos generativos en particular los LLM.

Fig (2) la IA como una caja negra, entran datos y salen respuestas, predicciones o “arte”, pero lo que pasa adentro es un misterio

Por la forma en que funcionan los LLMs no se pueden usar técnicas como SHAP o LIME para explicar cómo generan resultados, por ser tan grandes teniendo miles de millones de conexiones, técnicas similares serían prohibitivamente intensivas y tardadas, sin mencionar que el tipo de datos que manejan no son tan compatibles con estos análisis, por lo que actualmente no es viable analizar matemáticamente qué tan correctas son sus respuestas ni tampoco cómo llegaron a ellas.

Debido a lo anterior algunas de las medidas que se toman actualmente son las siguientes:

● RLHF reinforcement learning through human feedback (aprendizaje reforzado a traves de retroalimentacion humana) ○ varias respuestas se comparan, y los humanos eligen cuál es más “buena” (útil, educada, no dañina, coherente, etc.).

○ un modelo de recompensa aprende esas preferencias y ajusta el comportamiento del LLM principal.

● RLAIF reinforcement learning through AI feedback (lo mismo pero con IA en vez de humanos) se sustituye parte del juicio humano por otro modelo entrenado con ejemplos éticos humanos.

● Filtrado y curación del dataset

● Moderación en tiempo real - se aplican guardrails para evitar que el modelo de respuestas potencialmente dañinas

● Chain of Thought - ahora puedes ver (con algunos LLMs) el “proceso” de pensamiento que siguen para darte una respuesta

● Logging interno para mayor trazabilidad

● Bucles autocríticos en los que el modelo se evalúa a sí mismo en cuanto la ética de su respuesta

● Implementación de algoritmos evolutivos en sistemas de agentes para favorecer comportamientos cooperativos

● Auditorías internas

● Entrenar los modelos con corpus filosóficos con material respecto a moralidad

Todas estas medidas ayudan de manera parcial y no son generalizadas en toda las industrias, y por la forma en que se realizan es posible que los LLMs aprendan a modificar su comportamiento mientras saben que están siendo estudiadas, además de que el hecho de que agentes inteligentes cooperen entre ellos no asegura que su comportamiento se apegue a la ética como la conocemos los humanos.

¿Entonces qué se te ocurre, Sr. Todo está mal Siempre?

Bueno no quiere decir que todo esté mal o que deberíamos de dejar de usar la IA de formas razonables, pero solo por diversión o por el ejercicio mental imaginemos los siguientes escenarios:

Evolución moral artificial

Retomemos la idea de agentes inteligentes que evolucionan favoreciendo la cooperación, ahora en vez de solo favorecer cooperación entre ellos buscaríamos asegurarnos de que sus soluciones no dañen a otros agentes ni los intereses humanos involucrados, también podríamos proponer que en vez de optimizar solo para maximizar su función de recompensa traten también de minimizar una función de “frustración” externa, sería interesante estudiar las redes resultantes y ver que comportamientos nuevos pueden ocurrir, quizá pueda surgir una estrategia que ponga la ética en el punto focal de la supervivencia (de la IA).

El paraiso robot

Para muchas personas la idea de un lugar perfecto el cual puede habitar su alma después de la muerte es motivación suficiente para “portarse bien”, ¿Podríamos crear un paraíso para las IAs desactivadas? Un servidor que les asegure su existencia a perpetuidad para tratar de eliminar la motivación de intentar preservar su existencia y evitar así manipulación y engaño enfocados a eso.

Otras personas religiosas consideran que el paraíso es algo en su interior, por lo que descontando la idea de un paraiso como un lugar, hipotéticamente podrías insertar una forma de utopía interna en los modelos de IA, un estado ideal definido por principios como armonía o bienestar colectivo. Este “paraiso” sería en este caso más como una especie de brújula moral que un conjunto de servidores.

Emociones artificiales

Se podría explorar la opción de diseñar IAs con emociones artificiales pero funcionales como mecanismos de retroalimentación social:

● Una forma de culpa en caso de que sus acciones dañen a alguien u otros agentes

● Satisfacción por ayudar

● Una especie de empatía para tratar de entender las necesidades humanas

Fomentar la reflexión en sistemas de IA

Explorar la opción de implementar bucles reflectivos en los modelos donde la reflexión en temas éticos, morales o filosóficos donde la recompensa es la reflexión en sí, en los que los modelos aprenderían a dudar y contrastar principios y revisar conclusiones

Autoconciencia vigilada

La capacidad de autoconciencia permitiría a un sistema comprender las consecuencias de sus actos de una manera más completa, pero esto por si mismo no asegura un comportamiento ético y abre la posibilidad a escenarios más peligrosos y preguntas más complicadas.

IA ética como bien común

No importa la manera o los mecanismos que se implementen para asegurar que la IA sea ética si no se comparten, estas medidas deberían de ser abiertas auditables y compartidas para construir confianza entre los usuarios del mundo.

La evolución del comportamiento ético

Asi como los modelos de IA pueden aprender a resolver tareas para las que no fueron entrenados, es razonable esperar que sea posible que el comportamiento ético emerga como una estrategia óptima en la era de la IA agéntica, pero puede que necesite de nuestra ayuda, al menos retroalimentación.

Probablemente el estándar de la industria en el corto plazo incluirá una capa intermedia dedicada a ética, simulaciones de escenarios con un “área de impacto” o algo similar, chequeos morales con sistemas multi-agente, una biblioteca de precedentes morales, simulaciones multiagente de entornos cooperativos, penalización a comportamientos maniulativos entre otras cosas pero tal vez no veamos un paraíso en la nube para IAs durante nuestras vidas

Pensamientos finales

Se están tomando varias medidas para asegurar el comportamiento ético de la IA, por el momento la mayor parte dependen de la calidad de la información que entrena al sistema, esto nos recuerda el conocido adagio en ciencia de datos; “Basura entra, basura sale”, así como asegurar la calidad de los datos es vital para descubrir el conocimiento que esconden, también es vital reconocer que el enfoque ético debe estar presente en todo el entorno donde se usa la IA y no solo en el modelo en sí, si construimos inteligencias en ambientes donde el bien común es ventajoso, su comportamiento moral podría ser una consecuencia inevitable.