1. Home
  2. »
  3. Opinión
  4. »
  5. Citibeats va por calibración de datos online

Citibeats va por calibración de datos online

Facebook
Twitter
Pinterest

A medida que las empresas y los gobiernos se centran más en los datos, surge un gran problema: ¿se está diseñando el mundo para los hombres?

La brecha de datos de género significa que los hombres están sobrerrepresentados en muchos de los datos que las organizaciones utilizan para tomar decisiones. Mientras que Invisible Women (Criado-Perez) demuestra cómo este sesgo afecta a todos los ámbitos de la vida, este hecho ciertamente está presente en los datos online y en el tipo de datos que nuestros clientes usan con Citibeats.

Las plataformas online a menudo no son representativas en referencia a la distribución de género en la población general, en la mayoría de los países es del 49% al 51% (fuente: Our World In Data). Por ejemplo, las mujeres representan el 38% de los usuarios de Twitter a nivel mundial, con variaciones entre países (fuente: Datareportal, 2020). Además, parece que de estos usuarios, los hombres en algunos contextos publican más que las mujeres. Si bien esto varía según el país y el tema, desde nuestra experiencia, a menudo encontramos análisis de conversaciones donde el 70% de las conversaciones de Twitter son hombres y el 30% mujeres, aproximadamente.

Claramente, existe una discrepancia. Por esta razón, hemos determinado como uno de nuestros principales objetivos, eliminar el sesgo en el análisis de las opiniones de las personas y calibrar los resultados antes de que nuestros clientes los utilicen. A continuación, explicamos el por qué y el cómo.

Por qué la brecha de datos de género es un problema

A partir de los datos procesados en Citibeats, hemos percibido algunas diferencias en los temas de opiniones compartidas por mujeres y hombres. Al calibrar este efecto, damos el mismo peso a los temas que importan en general.

Por ejemplo, en una muestra de datos en América Latina, de opiniones cívicas durante la crisis de COVID-19, hay una subrepresentación de la importancia que se le da a las preocupaciones compartidas sobre el sistema de salud, la economía del hogar y las iniciativas cívicas. Esto es debido a que, en relación con otros temas, las mujeres se están enfocando más que los hombres en estos temas, pero no se les da suficiente importancia en los datos porque hay más hombres hablando.

Si bien, vemos ligeras diferencias después de la calibración (el sistema de salud, la economía del hogar y las iniciativas ciudadanas tienen mayor peso cuando se sopesa la voz de las mujeres por igual que la de los hombres), no vemos diferencias importantes. Cabe señalar que se trata de datos promediados, que contienen muchos países, y esto también debe ser analizado por país. Dicho esto, es importante realizar este tipo de análisis y calibración, porque en algunos casos la infrarrepresentación podría ser mayor y la calibración tendría un mayor impacto.

También estamos observando diferencias de género específicas de cada país. En la misma muestra de datos, podemos ver que en Brasil, la economía empresarial y los problemas del sistema de salud tienen un porcentaje más alto de discusión de los hombres, mientras que las mujeres están poniendo más énfasis en la salud mental y la educación.

En ese caso, las preocupaciones por la salud mental tendrían un porcentaje más alto de discusión en relación con otras cuestiones, si las voces de las mujeres se ponderaran por igual a las de los hombres; o las cuestiones de economía empresarial tendrían un porcentaje menor.

Tener detectadas las diferencias de género también ayuda a detectar nuevos problemas emergentes. En otro proyecto de Citibeats, sobre la protección del consumidor en 3 países de África, encontramos que el COVID-19 realza ciertas diferencias. En un país, la cantidad de mujeres que informaron haber sido víctimas de fraude aumentó después del COVID-19 más que entre los hombres; en otro país, el número de mujeres que denunciaron haber sido maltratadas por el servicio de atención al cliente aumentó más que entre los hombres.

Nuestra meta ha sido calibrar los resultados para que tengan la misma ponderación para hombres y mujeres, así como hacer que los problemas específicos de género que se enfrentan sean lo más visibles posible en nuestro producto. Nuestro siguiente reto será limitar el sesgo de la brecha de datos de género y brindar a nuestros clientes las herramientas que necesitan para tomar decisiones importantes.

Cómo estamos reduciendo la brecha con la IA de última generación

Para calibrar los resultados, hemos estado trabajando con enfoques técnicos de vanguardia para inferir el género a partir de la discusión online. Nos propusimos comprender, a nivel agregado, si los usuarios que participaban sobre un tema eran masculinos o femeninos. Puedes leer la descripción completa de cómo hemos realizado este desarrollo y capacitación desde cero en nuestra publicación técnica del blog: Using Machine Learning to Calibrate Online Opinion Bias

Para estimar el género de un usuario, nos enfocamos en usar los nombres de las personas y para Twitter, la descripción de la biografía. Mediante el aprendizaje profundo, nuestro sistema busca pistas y genera una probabilidad final de género. Un nombre como Esther puede tener un 100% de probabilidad de ser mujer, mientras que un nombre como Cris puede tener un 75% de probabilidad; de la biografía, podemos detectar otras pistas, como “madre de dos”, “ella” o “empresaria” (este último ejemplo, “mujer de negocios” en español, aparece en lenguas latinas con sustantivos de género). Si bien nuestro enfoque técnico no es perfecto, hemos podido comparar nuestra estimación demográfica de Twitter con las encuestas de Datareportals, con coincidencias muy cercanas (leer la publicación técnica para información más detallada).

Encontramos muchas pistas interesantes en el camino, como el hecho de que las mujeres tienden a usar emojis más que los hombres, o que el uso del ícono de emoji femenino es más indicativo de ser mujer, que el ícono de emoji masculino de ser hombre. Todos estos pequeños descubrimientos se tienen en cuenta en la probabilidad que finalmente calcula el algoritmo.

Un proceso ético para un resultado ético

Una consideración importante en nuestro enfoque ha sido el aspecto ético. Queremos limitar un problema (el sesgo de género), sin crear otro (debemos respetar los límites de la privacidad). Teniendo esto en cuenta, hemos adoptado el siguiente enfoque:

  • Solo trabajamos con el nombre y la biografía de la persona para estimar el género; no analizamos fotos, seguidores o cualquier otra información, que subjetivamente juzgamos como más intrusiva. Curiosamente, logramos alcanzar el mismo nivel de precisión que los enfoques de vanguardia que a menudo hacen uso de estas otras variables.
  • No se almacenan datos de usuario, solo se utilizan para entrenar el modelo inicial y se eliminan cuando no se necesitan.
  • Solo mostramos los datos de género como agregados y anonimizados. No es posible conocer el género de un individuo determinado, solo se permite consultar el desglose a nivel macro (mínimo 1,000 personas) sobre un tema determinado. De esta manera, nos aseguramos que su uso es solo para garantizar resultados representativos y no para ningún tipo de análisis a personas de forma individual.

El comienzo de un viaje hacia la IA ética

Se habla mucho sobre “IA ética”, y nuestro enfoque en Citibeats es basar eso en medidas prácticas y procesables para hacer algo al respecto. Intentamos ser idealistas y pragmáticos. Pragmáticos porque ya estamos implementando medidas concretas e idealistas en el sentido de que creemos que podemos llevar esto muy lejos: ser un ejemplo líder en cómo aplicar la IA ética a los desafíos del bien social en todo el mundo.

Si bien en esta investigación y publicación de blog nos hemos centrado en el sesgo de género, hay muchos más frentes abiertos en los que estamos trabajando continuamente, con la visión de ser la plataforma de datos sociales que sea confiable para tomar decisiones importantes. A menudo se dice que cuando se trata de datos, eres lo que comes, y esperamos poder proporcionar análisis de datos de “alimentos orgánicos” a los clientes.

Las herramientas éticas se utilizan mejor con problemas importantes. Si tienes una idea sobre cómo aplicar el análisis de las opiniones de las personas a escala en tu organización, puedes ponerte en contacto con nosotros; o descargar nuestro Impact Report para leer los últimos casos de uso de otras organizaciones.

¿Quieres saber más de Citibeats? Descarga nuestro impact report.

¿Quieres convertirte en nuestro partner? Puedes hacerlo aquí.

¿Quieres trabajar con nosotros? Aquí nuestras ofertas de trabajo

Noticias Relacionadas