Ofuscación de datos: si no puedes evitar que te rastreen, engaña al algoritmo | Tecnología

Ofuscación de datos: si no puedes evitar que te rastreen, engaña al algoritmo | Tecnología


Proyección de datos de Twitter, Instagram y Transportes de Londres a cargo del estudio Tekjia para la exposición Big Bang Data en Londres en 2019.Getty

Vivir en la era digital significa ser rastreado continuamente. Nuestras actividades cotidianas dejan una huella en el ciberespacio que, debidamente procesada, ayuda a las empresas a vendernos sus productos. El pacto implícito es el siguiente: los usuarios accedemos gratis a que las empresas recopilen nuestros datos a cambio de la promesa de recibir mejores servicios. Pero no todo el mundo está dispuesto a ceder a la ligera su información personal para que otras empresas se lucren con ella. Que lo sepan todo sobre nosotros puede suponer una vulneración de la privacidad de los individuos, y además puede resultar molesto ser perseguido por anuncios y ofertas a todas horas.

¿Hay forma de escapar al escrutinio de las empresas tecnológicas? Es muy difícil, sobre todo si usamos sus servicios a diario. Pero hay una manera de expresar la rebeldía desde dentro el sistema: ofrecer datos incorrectos para confundir a quienes los recopilan. Una forma sencilla de hacerlo sería dar nombre y dirección falsas cuando se le pide a uno esa información para registrarse en alguna página web; otra más elaborada sería usar programas especiales que pinchen automáticamente en todos los banners que se nos ofrezcan, de manera que resulte difícil inferir nuestros gustos. A esto se le llama ofuscación de datos y, si lo practicase una masa crítica de gente lo suficientemente amplia, el big data acabaría por ser irrelevante. Porque los algoritmos, sin datos de calidad, no sirven para nada.

La industria es consciente del poder de esta práctica. Tanto es así que la consultora Gartner incluyó el algorithm hacking (así se le llama también) como una de las cinco claves a seguir en 2020 en su informe anual de tendencias de consumo para profesionales del marketing. No está claro cuánta gente practica la ofuscación de datos. Según Kate Muhl, analista de Gartner, en torno a una cuarta parte de los consumidores lo hacen en su día a día, aunque sea poniendo un nombre falso al rellenar un formulario online.

Tampoco se puede establecer qué proporción de datos falsos bastaría para hundir al sistema. El tamaño de las bases de datos y la naturaleza de los algoritmos de aprendizaje automático son muy distintos entre sí. Una simulación realizada con un algoritmo de recomendación de películas llevó a unos investigadores a concluir que si el 30% de los usuarios aportaban al sistema datos falsos, la efectividad del mismo caía al 50%.

Más hastío que activismo

Pese a tener un nombre pomposo (ofuscación de datos o alteración de algoritmos), aportar información falsa no es un invento reciente. En el ámbito militar, por ejemplo, se practica desde la Antigüedad para confundir al enemigo. “Mentir es muy intuitivo, casi intrínseco al ser humano. Muchos países incluso admiten un derecho a la mentira. En Estados Unidos está la Primera Enmienda y en algunos ordenamientos jurídicos se permite mentir en un juicio para defenderse a uno mismo”, explica la filósofa Carissa Véliz, que en su libro Privacy is Power (Bantam Press, 2020) sitúa la ofuscación de datos como una de las vías de acción para proteger nuestra privacidad.

“La ofuscación de datos está mucho más extendida de lo que pensamos”, opina por su parte Gemma Galdón, directora de la auditoría de algoritmos Eticas Consulting. “Lo que pasa es que más que como un acto de activismo se hace por incomodidad o hastío. Y eso sucede porque en algún momento la ciudadanía rompió su confianza en la tecnología”, añade. Mentir cuando se rellena el formulario de inscripción de una tarjeta de fidelización de un comercio o taparse la cara con el abrigo cuando pasamos ante una cámara de seguridad son dos ejemplos de acciones sencillas y muy comunes.

“Se asume que todos los datos aportados de forma voluntaria por la gente tienen un grado de fiabilidad muy bajo. Su valor en el mercado es prácticamente cero”, ilustra Galdón. De ahí que lo que se compra caro son los datos que se obtienen de entidades bancarias o de procesos en los que el ciudadano no tiene la libertad de mentir.

La ofuscación de datos es la aportación deliberada de información ambigua, confusa o falsa para interferir en la vigilancia digital y en la recolección de datos”, definen Finn Brunton y Helen Nissenbaum en su obra canónica Obfuscation. A User’s Guide for Privacy and Protest (MIT Press, 2015). Un reciente estudio elaborado por investigadores de la Northwestern University (Illinois) distingue entre tres formas de confundir a los algoritmos: con huelgas de datos, intoxicar los datos y aportando datos a la competencia.

1. Huelga de datos

La primera medida para erosionar el poder del capitalismo de la vigilancia es abstenerse de generar datos o borrar los que se hayan aportado. Esto se consigue eliminando las cuentas de plataformas que no se consideren imprescindibles o instalando herramientas de privacidad.

Los investigadores de la Northwestern University citan como ejemplo los boicots a Facebook promovidas en EE UU por asociaciones en defensa de los derechos civiles o a Uber cuando se denunciaron casos de acoso sexual dentro de la compañía.

2. Datos intoxicados

Esta segunda modalidad de ofuscación consiste en aportar de forma consciente datos sin sentido, que confundan a quien los recoge. La forma más sencilla de hacerlo es mintiendo. Por ejemplo, dando me gusta a canciones que en realidad odias en un reproductor de música. O inventando una dirección de correo electrónico cada vez que se nos exige dar uno para poder acceder a una web.

Otra vías más compleja consiste en deslumbrar al algoritmo: mandarle una gran cantidad de datos, todos ellos falsos, para que el perfil que construya sobre nosotros sea todavía más impreciso. Hay extensiones para navegadores como AdNauseam que hacen ese trabajo por nosotros. Da clics de forma automática e imperceptible para el usuario en todos los anuncios que se nos muestran cuando navegamos. El objetivo es que Google Ads no consiga procesar toda esa información, que además será errónea. Otra opción es usar TrackMeNot, que lanza búsquedas constantes y aleatorias en Google, de manera que nuestras auténticas preferencias quedan diluidas.

Un grupo de adolescentes estadounidenses dio el año pasado con una ingeniosa forma de volver loco a Instagram. Decidieron compartir una sola cuenta en la red social. Cada vez que alguien del grupo quería entrar solo tenía que pedirle a quien estuviese conectado que reiniciase la sesión. Tras esa petición, la compañía envía automáticamente una contraseña al dispositivo desde el que se solicita. El compinche solo tiene que compartir esa clave con quien quiera incorporarse. El resultado: el algoritmo mostraba fotos de Kobe Bryant, de recetas de repostería, de coches… Nada que ver con las preferencias de ninguno de ellos.

3. Alimentar a la competencia

La tercera vía para engañar a los algoritmos consiste en aportar de forma consciente datos al competidor de la plataforma contra la que se quiera protestar. Por ejemplo, subir las fotos que se tengan en Facebook en Tumblr o usar el buscador DuckDuckGo en vez de Google. El objetivo es fomentar la competencia entre plataformas.

Las consecuencias de estas acciones pueden tener efectos en el espacio físico. En verano de 2019, los conductores de Uber y Lyft de Washington se pusieron de acuerdo para subir las tarifas de los trayectos, lo que afecta a su retribución. El mecanismo: apagar simultáneamente las aplicaciones durante unos minutos, de manera que el algoritmo crea que hay pocos conductores y suba así el precio de las carreras, y volverlas a encender luego.

Puedes seguir a EL PAÍS TECNOLOGÍA en Facebook y Twitter.

Lo más vendido de tecnología informática

RebajasBestseller No. 1
Hp Elite 8300 SFF - Ordenador de sobremesa (Intel Core i5-3470, 3.2 GHz, 8GB de RAM, Disco SSD de 240GB + 500GB HDD, Lector, Windows 10 Pro ES 64) (Reacondicionado)
  • Procesador Intel Core i5-3470 caché de 6M, hasta 3,60 GHz
  • Memoria RAM de 8 GB, de tipo DDR3
  • Almacenamiento de SSD 240GB + 500GB HDD
  • Sistema operativo Windows 10 Professional
RebajasBestseller No. 2
Lenovo V14 - Ordenador portátil 14" HD (Athlon 3020E, 4GB RAM, 128GB SSD, UMA Graphics, Windows 10 Pro), Color gris - Teclado QWERTY español
  • Pantalla de 14" HD, 1280x720 píxeles, TN, 220nits, antirreflejo
  • Procesador Athlon 3020E (2C, 1.2 GHz)
  • Memoria RAM de 4GB DDR4-2400 SO-DIMM
  • Almacenamiento de 128GB SSD M.2 2242 NVMe
  • Sistema Operativo Windows 10 Pro
RebajasBestseller No. 3
Lenovo IdeaPad 3 - Ordenador Portátil 15.6" FullHD (Intel Core i5-1135G7, 16GB RAM, 512GB SSD, Intel Iris Xe Graphics, Sin Sistema Operativo) Gris - Teclado QWERTY Español
  • Pantalla de 15.6" FullHD 1920x1080 píxeles, TN, 250nits
  • Procesador Intel Core i5-1135G7 (4C/8T, 4.2 GHz, 8 MB)
  • Memoria RAM de 16GB (8GB Soldered DDR4-3200 + 8GB SO-DIMM DDR4-3200)
  • Almacenamiento de 512GB SSD M.2 2242 PCIe 3.0x4 NVMe
  • Tarjeta gráfica integrada Intel Iris Xe Graphics
RebajasBestseller No. 4
HP 240 G8 - Ordenador portátil de 14” FullHD (Intel Celeron 4020, 8GB RAM, 256GB SSD, Windows 10 Home) Negro - Teclado QWERTY Español
  • Display 35.6 cm (14") Full HD 1920 x 1080 IPS
  • Procesador Intel Celeron N4020 (4MB Cache, 1.1GHz)
  • Memoria RAM 8GB (2400MHz) DDR4-SDRAM (1 x 8)
  • Almacenamiento 256 GB SSD
  • Sistema operativo Windows 10 Home 64 Bits
Bestseller No. 5
Lenovo IdeaCentre G5 - Ordenador de sobremesa Gaming (Intel Core i5-10400F, 512GB SSD+1TB HDD, RAM 8GB, NVIDIA GTX 1650 SUPER-4GB GDDR6, Sin Sistema Operativo) Ratón+Teclado USB QWERTY Español, Negro
  • Procesador Intel Core i5-10400F (6C / 12T, 2.9 / 4.3GHz, 12MB)
  • Memoria RAM de 8GB UDIMM DDR4-2933, ampliable hasta 32GB
  • Almacenamiento de 512GB SSD M.2 2242 NVMe + 1TB HDD 7200rpm 3.5"
  • Tarjeta gráfica NVIDIA GeForce GTX 1650 SUPER 4GB GDDR6
  • Teclado (QWERTY Español) y ratón USB, Color negro

Fuente original