miércoles, 31 de mayo de 2023

La mal llamada Inteligencia Artificial es racista por los prejuicios de sus creadores

 

La mal llamada Inteligencia Artificial es racista por los prejuicios de sus creadores

Por Adán Salgado Andrade

 

El sociólogo francés Emile Durkheim (1858-1917) decía que era importante que un hecho social se revisara sin inmiscuir el punto de vista personal del investigador, tenía que ser neutral y apegado a los hechos.

Por desgracia esa máxima no se aplica a la elaboración de los programas de entrenamiento redundante, los mal llamados de Inteligencia Artificial, como el ChatGPT, por ejemplo, que van “mejorando” las respuestas mediante la interacción con el usuario y sus sugerencias.

Pero desde el inicio esos, sistemas están prejuiciados y son hasta racistas, como expone el artículo “La inteligencia artificial está apoyada por el colonialismo digital de las corporaciones digitales”, firmado por Grace Browne, quien inicia comentando que “la inteligencia artificial continúa alimentándose con materiales racistas y sexistas, que luego se distribuyen alrededor del mundo” (ver: https://www.wired.com/story/abeba-birhane-ai-datasets/).

El artículo se centra en las investigaciones que ha realizado Abeba Birhane, investigadora etíope que estudió psicología, luego filosofía y, por último, un doctorado en ciencia cognitiva en la Universidad de Dublín (ver: https://en.wikipedia.org/wiki/Abeba_Birhane).

Dice que durante su doctorado, estuvo rodeada de desarrolladores de software y estudiantes de ciencias de recopilación de información, “inmersos en modelos que estaban haciendo y empleando bancos de información, pero nadie se preguntaba qué era lo que había en esos bancos”.

El problema, señala Birhane, citada por Browne, es que “un algoritmo es una opinión insertada en un código, pues los programadores meten sus propias idiosincrasias al crearlos”.

Como señalé arriba,  programan muchas veces a lo que es su parecer, sobre todo, en los llamados generadores inteligentes de texto, como el citado ChatGPT.

Personalmente, he experimentado con este sistema y me parece adecuado para conocer algunas ideas generales de tal o cual problema, pues lo hace recabando información de la red. En este caso, me parece que los creadores son progresistas, pues las respuestas que obtuve fueron adecuadas y no influenciadas, por ejemplo, de conservadurismo. Y, como son de entrenamiento regenerativo, al comentarle que le faltó esto o aquello, si se le pide una nueva respuesta, toma en cuenta la sugerencia (ver: http://adansalgadoandrade.blogspot.com/2023/01/chatgpt-permite-conocer-temas-muy.html).

Pero como señala Birhane, de todos modos, hay sexismo y racismo. Incluso, los pueden hackear y obligarlos a emitir mensajes de odio o racistas, usando el llamado prompt-injection, como han demostrado varios expertos en ciberseguridad (ver: https://www.wired.com/story/chatgpt-prompt-injection-attack-security/).

Dice Browne que “al desestimar las diferencias raciales, la Inteligencia Artificial (IA), ha sido acusada de darle menos valor al tipo de salud que requieren los pacientes negros o hacer menos elegible a afroestadounidenses para acceder a una casa a crédito”.

En efecto, si el programador dice, por ejemplo, que en Estados Unidos o en Inglaterra hay tales tratamientos para determinadas enfermedades crónicas, lo hace desde el punto de vista de los blancos, que sí reciben mejor atención que gente de otra raza, como sucede, por ejemplo, en Inglaterra, país en donde asiáticos o africanos son discriminados de ciertos tratamientos (ver: https://www.theguardian.com/society/2022/feb/13/radical-action-needed-to-tackle-racial-health-inequality-in-nhs-says-damning-report).

Por tantos sesgos, Birhane se puso a investigar los bancos de información. Y tanta atención ha tenido que, incluso, tuvo un encuentro, en el 2022, con el Dalai Lama.

Con su colega Vinay Prabhu, auditaron dos populares bancos de datos. Uno, del MIT (Massachusetts Institute of Technology), llamado 80 million Tiny Images, “que ha sido citado en cientos de trabajos académicos por más de una década, para enseñar a sistemas computarizados de aprendizaje, a reconocer gente y objetos. Estaba lleno de frases ofensivas, incluyendo insultos racistas hacia gente negra. El otro banco, se llama ImageNet, en el que hallaron hasta contenido pornográfico, incluyendo mujeres con las faldas levantadas, imágenes que no requieren el consentimiento de las afectadas, pues fueron tomadas del internet. Dos días después de la publicación de su estudio, el MIT pidió disculpas y eliminó el banco Tiny Images”.

Qué bueno que se haya eliminado ese sitio, pues si le pedían a uno de esos programas de reconocimiento la imagen de una mujer negra, quizá lo primero que aparecía, era una imagen pornográfica, pues así se le ha estereotipado.

La razón es que esos programas no distinguen entre lo permitido, lo moral, lo prohibido, lo obsceno… Sólo se les dan instrucciones para recopilar cuanta información haya y por eso, como señala Birhane, dan muchas veces resultados ofensivos y equivocados.

Dice Browne que “esos problemas vienen desde arriba. El aprendizaje computacional es casi todo hecho por hombres blancos, así que lo separa el factor demográfico, de las distintas comunidades a las que pretende servir. Y las grandes corporaciones tecnológicas, no sólo ofrecen sesgos en línea, sino que tienen tanto poder, como para moldear los eventos a su conveniencia”.

En efecto. Sólo véase a empresas como Google, que ofrecen ciertos instrumentos, como el blogspot, para que uno autopublique, pero siempre bajo sus normas. Yo, que lo uso, algunas veces he recibido “alertas” de que el contenido puede ser “delicado” o hasta “ofensivo”. Así que, por esa situación, trato de que los títulos no sean explícitos, cuando se trata de contenido muy específico, como el mal que le hace a un niño ver pornografía desde pequeño. Ya, con que incluya esa palabra, es objeto de una absurda censura. Tengo que escribir, por ejemplo, “los niños que ven imágenes obscenas desde temprana edad, pueden sufrir afectaciones en su psiquis”.

De todos modos, cuando buscamos con Google, alguna cosa, un objeto, una definición, en “imágenes”, todo lo saca del internet. Y cuando se trata de alguna biografía, recurre a Wikipedia, sin lugar a dudas. No es tampoco un generador de información, pues la recopila del internet.

Por lo mismo, Birhane ha creado el término “colonialismo digital”, por el poder que tienen las corporaciones tecnológicas – Google, Apple, Microsoft, Amazon, Meta… – , que rivaliza al de los viejos imperios. Esa tecnología es exportada hacia el sur, “pero lleva normas occidentales y filosofías con ella. Se vende para ayudar a naciones subdesarrolladas, pero frecuentemente, sólo se impone, sin consentimiento, empujándolas todavía más hacia la marginación. ‘Nadie en Sillicon Valley se preocupa sobre la mujer negra que no usa un banco en una zona rural de Tombuctú’, señala Birhane”.

Lo que dice me recuerda los planes de estudio que se hacen para las primarias o secundarias en México. Los estudiantes de una ciudad, entenderán cuando ven la imagen de un chico usando una computadora. Pero si esa imagen la ve un chico de la sierra, que ni agua o luz tiene, es totalmente absurda. Además, la mujer negra de Tombuctú que señala Birhane, ni siquiera conoce una computadora, mucho menos su funcionamiento.

Otro problema es que muchos de los generadores de texto, como el ChatGPT, están desarrollados casi únicamente para trabajar en inglés (yo, cuando lo empleo, en efecto, lo hago en inglés, pues sólo así desarrolla todo su potencial, digamos). Así que muchas personas que no hablen inglés, aunque lo deseen utilizar, no podrían hacerlo, es otra discriminación adicional (ver: https://www.wired.com/story/chatgpt-non-english-languages-ai-revolution/).

Dice Birhane que el enojo popular es el que puede cambiar las cosas, pues las corporaciones, no lo harán, porque no les interesa proveer “datos confiables, sólo las ganancias”. “Se tiene que hacer el trabajo sucio de revisar los bancos de datos y eso es muy deprimente”, se queja Birhane.

En el 2021, ella y sus colegas publicaron un análisis sobre la base de datos llamada LAION-400M, de 400 millones de imágenes, que “proveía pornografía explícita, cuando se le preguntaba sobre cosas tan simples como momia (mummy) o tía (aunty). La publicación generó enojo, pero nada se hizo, y esa base de datos todavía existe. Incluso, se ha expandido a más de 5,000 millones de imágenes. Y recientemente hasta ganó un premio”.

Sólo imaginen, un “premio”. ¿Sería porque ya tiene cinco mil millones de imágenes almacenadas?

Por eso dice Birhane que lo fácil es almacenar tanta información, pero lo difícil es aprender a discriminarla.

Ella alguna vez anduvo de activista contra el poder de las corporaciones, pero ahora, prefiere hacer la lucha desde sus investigaciones.

Su posición es la mía, por ejemplo. He tenido mis etapas de activismo, pero también la difusión de ideas, de conocimiento, es necesaria para que lo sepan los activistas y realicen sus luchas.

Dice Birhane que tendrían que ser las propias corporaciones tecnológicas las que resolvieran todos los problemas que ocasiona proporcionar información sin control, sin revisar, “pero es demasiado pedir”.

Es como si le pidiéramos al capitalismo salvaje que ya no sobreprodujera, para que no se depredara, ni contaminara tanto el planeta.

Así que seguirán esos programas “inteligentes” dando información equivocada y hasta ofensiva para los usuarios.

¡Ah!, pero las corporaciones continuarán con sus business as usual, sin importar que un adolescente que busque “anatomía” sea bombardeado por un puñado de imágenes pornográficas.

Otra de las nefastas consecuencias de la “modernidad”.

 

Contacto: studillac@hotmail.com