Gobierno del Dato y Privacidad en Modelos de Aprendizaje Automático

Introducción

La Administración Pública es, por su propia naturaleza, una de las organizaciones que más datos personales maneja de la ciudadanía: padrones, expedientes tributarios, servicios sociales, sanidad, educación, movilidad. La irrupción del Big Data y del aprendizaje automático ha abierto la posibilidad de explotar esa ingente cantidad de información para mejorar la prestación de servicios públicos, detectar fraude, planificar recursos o anticipar necesidades de la ciudadanía mediante decisiones automatizadas o asistidas por algoritmos. Sin embargo, esa misma capacidad de explotación masiva de datos personales sitúa a la Administración ante una tensión de fondo que recorre todo este tema: cuanto más rico y detallado es un conjunto de datos, más útil resulta para entrenar un modelo predictivo, pero también más sensible se vuelve desde el punto de vista de la privacidad, y más expuesto queda a reproducir y amplificar sesgos discriminatorios ya presentes en los datos históricos de partida.

La tesis que se sostiene en este tema es que el gobierno del dato no puede entenderse como una fase posterior al desarrollo de un modelo de aprendizaje automático, sino como una disciplina que debe acompañar todo el ciclo de vida del dato, desde su captación hasta su uso en producción, y que solo a través de una modelización conceptual rigurosa, de una calidad del dato garantizada y de un cumplimiento efectivo de la Ley Orgánica 3/2018, de Protección de Datos Personales y garantía de los derechos digitales —la LOPDGDD—, es posible que la minería de datos y el aprendizaje automático desplieguen su potencial sin convertirse en una fuente de vulneración de derechos fundamentales ni de discriminación automatizada. Para desarrollar esta idea, conviene partir de qué es exactamente entrenar un algoritmo y de dónde proceden los datos que lo alimentan, para después adentrarse en el reto de la anonimización, en el problema de los sesgos en la toma de decisiones automatizadas, y finalmente en el marco jurídico y de calidad del dato que debe sostener todo el proceso.

Minería de datos, Big Data y el entrenamiento de algoritmos de aprendizaje automático

Antes de hablar de privacidad o de sesgos resulta necesario detenerse en qué significa, en términos sencillos, entrenar un algoritmo de aprendizaje automático, porque buena parte de los riesgos que se analizarán después nacen precisamente de esa mecánica. Un modelo de aprendizaje automático no se programa explicando paso a paso qué debe hacer, como ocurriría con un programa tradicional, sino que se entrena: se le muestran grandes volúmenes de ejemplos, normalmente en forma de pares de entrada y salida —por ejemplo, miles de solicitudes de una ayuda social junto con la decisión que en su día se tomó sobre cada una—, y el algoritmo ajusta sus parámetros internos hasta que es capaz de generalizar un patrón que le permite predecir la salida correcta ante entradas nuevas que no había visto antes. Esta lógica de aprendizaje a partir de ejemplos es lo que se conoce como aprendizaje supervisado, y conviven con ella el aprendizaje no supervisado, en el que el algoritmo busca patrones o agrupaciones en los datos sin que exista una salida predefinida, y el aprendizaje por refuerzo, en el que el sistema aprende mediante ensayo y error a partir de recompensas o penalizaciones. Lo que todas estas variantes tienen en común es que la calidad y la naturaleza del modelo resultante dependen por completo de la calidad y la naturaleza de los datos con los que se ha entrenado: un algoritmo nunca es mejor que los datos que lo alimentan, y si esos datos contienen errores, lagunas o patrones históricos discriminatorios, el modelo los aprenderá y los reproducirá con toda la apariencia de objetividad que da una decisión tomada por una máquina.

Estos datos de entrenamiento no surgen de la nada, sino que proceden habitualmente de procesos de minería de datos sobre los grandes repositorios de información que la Administración acumula en su actividad ordinaria, lo que se conoce de forma más amplia como Big Data. La minería de datos consiste precisamente en aplicar técnicas estadísticas y algorítmicas para extraer patrones, relaciones o conocimiento no evidente a partir de esos grandes volúmenes de información, que suelen describirse a través de las célebres tres uves: el volumen de datos que se maneja, la velocidad a la que esos datos se generan y deben procesarse, y la variedad de fuentes y formatos —estructurados, como las bases de datos relacionales, o no estructurados, como documentos, imágenes o interacciones de la ciudadanía con una sede electrónica— de las que proceden. Cuando una entidad local decide entrenar un modelo de aprendizaje automático sobre, por ejemplo, sus expedientes de servicios sociales para priorizar la atención a los casos más vulnerables, lo que está haciendo en la práctica es aplicar minería de datos sobre un repositorio de Big Data que contiene información personal, y en muchos casos información de categorías especialmente protegidas, lo que introduce de inmediato la cuestión de la privacidad que se desarrolla en el siguiente bloque.

El reto de anonimizar los datos ciudadanos

La forma más intuitiva de conciliar el aprovechamiento de los datos con la protección de la privacidad consiste en anonimizarlos antes de utilizarlos para entrenar un modelo, de manera que ya no sea posible identificar a la persona a la que se refieren. Sin embargo, este reto resulta mucho más complejo de lo que parece a primera vista, y conviene distinguir con precisión entre dos conceptos que con frecuencia se confunden en la práctica administrativa: la anonimización y la seudonimización. La seudonimización, que es la que recoge expresamente el Reglamento General de Protección de Datos, consiste en sustituir los datos identificativos directos —como el nombre o el número de identificación— por un código o referencia, de forma que la identificación directa ya no es inmediata, pero sigue siendo posible revertir el proceso si se dispone de la información adicional necesaria, normalmente conservada de forma separada. Por ello, un dato seudonimizado sigue siendo, a todos los efectos legales, un dato personal sometido a la normativa de protección de datos. La anonimización propiamente dicha, en cambio, exige que el proceso sea irreversible: que resulte imposible, incluso combinando el dato con cualquier otra información razonablemente disponible, volver a identificar a la persona afectada. Solo cuando se alcanza ese estándar, el dato deja de considerarse dato personal y queda fuera del ámbito de aplicación de la normativa de protección de datos.

El problema, y aquí reside el verdadero reto técnico, es que conseguir una anonimización efectiva en conjuntos de datos ricos y de alta dimensionalidad —precisamente los que resultan más útiles para entrenar modelos de aprendizaje automático— es extraordinariamente difícil. Eliminar el nombre y el número de identificación de un expediente no basta si el conjunto de datos conserva, por ejemplo, el código postal, la fecha de nacimiento, el género y la profesión, porque la combinación de esos atributos, aparentemente inocuos por separado, puede bastar para identificar de forma unívoca a una persona concreta dentro de un municipio pequeño, en lo que se conoce como un ataque de reidentificación por combinación de atributos cuasi-identificadores. Este riesgo se agrava todavía más cuando se trata de conjuntos de datos de alta dimensionalidad, como los que registran el detalle de cientos de variables sobre cada ciudadano, porque cuantas más variables se conservan, más fácil resulta que la combinación particular de valores que presenta una persona sea única y, por tanto, identificable, un fenómeno que en la literatura técnica se conoce como la maldición de la dimensionalidad aplicada a la privacidad.

Frente a este reto, se han desarrollado distintas técnicas y modelos formales de anonimización que conviene conocer porque cada uno ofrece garantías distintas. El modelo de k-anonimato exige que cada combinación de atributos cuasi-identificadores presentes en el conjunto de datos sea compartida, como mínimo, por k individuos diferentes, de manera que ninguna persona pueda distinguirse de al menos otras k-1 personas con el mismo perfil; sin embargo, este modelo resulta vulnerable cuando, dentro de ese grupo de k personas indistinguibles, todas comparten además el mismo valor en un atributo sensible, como el diagnóstico médico, lo que permite inferir esa información sensible aunque no se sepa exactamente de quién se trata. Para corregir esta debilidad surgió la l-diversidad, que exige además que dentro de cada grupo de k-anonimato existan al menos l valores distintos del atributo sensible, evitando así la inferencia por homogeneidad. Más recientemente, la técnica de la privacidad diferencial ha ganado protagonismo porque ofrece una garantía matemática distinta y más robusta: en lugar de modificar el conjunto de datos para que ningún individuo sea identificable, introduce de forma controlada ruido estadístico en los resultados de las consultas o en el propio proceso de entrenamiento del modelo, de manera que la presencia o ausencia de cualquier individuo concreto en el conjunto de datos apenas altera el resultado final, lo que permite acotar matemáticamente el riesgo de reidentificación incluso frente a atacantes con información auxiliar. Ninguna de estas técnicas, conviene insistir, elimina por completo el riesgo: lo que hacen es reducirlo a un nivel cuantificable y aceptable, razón por la cual la Administración debe documentar siempre, dentro de su análisis de riesgos, qué técnica ha empleado y con qué parámetros, de manera que pueda justificar ante la Agencia Española de Protección de Datos que el tratamiento resulta proporcionado.

El reto de los sesgos discriminatorios en la toma de decisiones automatizadas

Si la anonimización constituye el reto principal desde la óptica de la privacidad individual, el sesgo discriminatorio constituye el reto principal desde la óptica de la igualdad de trato, y ambos retos, aunque distintos, están profundamente entrelazados, porque las mismas variables que resultan más delicadas desde el punto de vista de la privacidad —origen étnico, género, situación económica, lugar de residencia— suelen ser también las que, si se introducen sin control en un modelo predictivo, generan los sesgos más graves. Un modelo de aprendizaje automático puede discriminar de forma no intencionada por varias vías que conviene distinguir con claridad. La primera es el sesgo de los datos históricos, que se produce cuando los datos con los que se entrena el modelo reflejan decisiones humanas pasadas que ya eran discriminatorias, de modo que el algoritmo, al aprender a imitar ese patrón histórico, perpetúa y automatiza la discriminación que existía antes, pero ahora revestida de la apariencia objetiva y neutral que se atribuye erróneamente a las decisiones tomadas por una máquina. La segunda vía es el sesgo de representación, que aparece cuando determinados colectivos están infrarrepresentados en los datos de entrenamiento, lo que provoca que el modelo aprenda peor sus patrones y, en consecuencia, ofrezca predicciones menos fiables o más erráticas precisamente para esos colectivos minoritarios. Y existe, además, lo que suele denominarse discriminación por proxy, un fenómeno especialmente insidioso porque se produce incluso cuando el atributo sensible se ha eliminado deliberadamente del conjunto de datos: basta con que otras variables aparentemente neutras —el código postal, el tipo de contrato laboral, el canal por el que se accedió a un servicio— estén suficientemente correlacionadas con ese atributo sensible para que el modelo termine discriminando en la práctica de forma indirecta, sin que en ningún momento haya tratado explícitamente el dato protegido.

Detectar y mitigar estos sesgos exige intervenir en distintos momentos del proceso. Antes del entrenamiento, resulta posible auditar el conjunto de datos para comprobar si los distintos grupos demográficos están representados de forma equilibrada, y aplicar técnicas de rebalanceo o de generación de ejemplos sintéticos cuando no lo están. Durante el propio entrenamiento, pueden incorporarse restricciones matemáticas que obliguen al modelo a mantener métricas de equidad similares entre distintos grupos, como exigir que la tasa de error o la tasa de aciertos no diverja de forma significativa entre hombres y mujeres, o entre distintos grupos de edad. Y después del entrenamiento, conviene auditar las predicciones del modelo ya en producción, comparando sistemáticamente los resultados que ofrece para distintos colectivos y vigilando que esa equidad se mantenga en el tiempo, porque un modelo puede comportarse de forma equitativa en el momento de su validación inicial y desviarse progresivamente a medida que cambian las características de la población real a la que se aplica, un fenómeno conocido como deriva del modelo. Esta exigencia de auditar las decisiones automatizadas no es solo una buena práctica técnica: tiene un anclaje jurídico directo, porque tanto el Reglamento General de Protección de Datos como la propia LOPDGDD reconocen a la ciudadanía el derecho a no ser objeto de una decisión basada únicamente en un tratamiento automatizado, incluida la elaboración de perfiles, que produzca efectos jurídicos sobre ella o le afecte de modo significativo, salvo en los supuestos tasados que la propia norma contempla, lo que obliga a las Administraciones Públicas a prever siempre, cuando empleen este tipo de sistemas, la intervención humana correspondiente y a garantizar a la persona afectada el derecho a obtener una explicación y a impugnar la decisión.

El marco jurídico de la LOPDGDD y la calidad del dato como condición de fondo

Todo lo anterior debe enmarcarse, desde el punto de vista normativo, en las exigencias de la Ley Orgánica 3/2018, que desarrolla en España el Reglamento General de Protección de Datos y que resulta de aplicación plena a cualquier entidad local que trate datos personales de su ciudadanía, ya sea para fines administrativos ordinarios o para entrenar modelos de aprendizaje automático. Entre los principios que recoge esta normativa, varios resultan especialmente relevantes para el gobierno del dato en el contexto del aprendizaje automático. El principio de licitud exige que exista una base jurídica clara que legitime el tratamiento de los datos para entrenar un modelo, lo que en el ámbito público suele identificarse con el ejercicio de poderes públicos o con el cumplimiento de una obligación legal, y no puede darse por supuesto simplemente porque los datos ya estuvieran en poder de la Administración para otra finalidad. El principio de limitación de la finalidad impide, precisamente por ello, reutilizar sin más datos recogidos originalmente para gestionar, por ejemplo, una prestación social, con el fin de entrenar un modelo predictivo distinto, salvo que dicha reutilización resulte compatible con la finalidad original o cuente con una habilitación específica. El principio de minimización de datos exige que solo se trate la información estrictamente necesaria para la finalidad del modelo, lo que entra en una tensión directa con la lógica del Big Data, inclinada por naturaleza a acumular cuantas más variables mejor, y obliga a justificar técnicamente por qué cada variable incluida en el conjunto de entrenamiento resulta necesaria. Y el principio de exactitud exige mantener los datos actualizados y corregir los erróneos, lo que conecta de forma directa con la calidad del dato como condición de fondo de todo el proceso.

Esta exigencia de calidad del dato no es un mero requisito técnico añadido, sino una condición que determina por completo la fiabilidad de cualquier modelo de aprendizaje automático, y que se apoya en una modelización conceptual rigurosa de la información desde su origen. Antes de que un dato pueda emplearse para entrenar un algoritmo, debe haberse definido con precisión su significado, su formato, sus reglas de validación y sus relaciones con el resto de entidades del sistema de información, labor que corresponde precisamente a la modelización conceptual de datos. Un modelo conceptual bien construido —que identifique con claridad las entidades relevantes, sus atributos y las relaciones entre ellas, evitando ambigüedades y redundancias— resulta la mejor garantía de que los datos que después se exporten para entrenar un modelo sean consistentes, completos y comparables entre sí. La calidad del dato suele evaluarse, en este sentido, a través de varias dimensiones que conviene tener presentes: la exactitud, entendida como el grado en que el dato refleja la realidad que pretende representar; la completitud, entendida como la ausencia de valores faltantes relevantes; la consistencia, entendida como la ausencia de contradicciones entre distintos sistemas o registros que deberían coincidir; la actualidad, entendida como el grado en que el dato refleja el estado más reciente de la realidad; y la unicidad, entendida como la ausencia de duplicados que distorsionarían artificialmente los patrones que el modelo aprende. Un conjunto de datos que falle en cualquiera de estas dimensiones no solo producirá un modelo menos preciso, sino que puede amplificar exactamente los riesgos de sesgo y de privacidad que se han descrito en los bloques anteriores: los valores faltantes no son nunca aleatorios, sino que suelen concentrarse precisamente en los colectivos peor atendidos por la Administración, de modo que un problema aparentemente técnico de completitud del dato termina convirtiéndose, sin que nadie lo haya buscado deliberadamente, en una fuente más de discriminación algorítmica.

Síntesis: hacia un gobierno del dato integral en la Administración Local

De todo lo expuesto se desprende que la privacidad, la equidad y la calidad del dato no pueden tratarse como compartimentos separados ni como controles que se añaden al final del proceso, justo antes de poner en producción un modelo de aprendizaje automático, sino que deben formar parte de un gobierno del dato que acompañe a la información desde el mismo momento en que se diseña el modelo conceptual que la sustenta. Esto implica, en la práctica de una entidad local, que cualquier proyecto de minería de datos o de aprendizaje automático sobre información de la ciudadanía debería pasar por evaluar primero si existe una base jurídica suficiente y si la finalidad resulta compatible con la que motivó la recogida original del dato; por aplicar después los principios de minimización, exigiendo una justificación expresa de cada variable que se incorpore al conjunto de entrenamiento; por someter ese conjunto de datos a un proceso de anonimización o seudonimización proporcionado al riesgo, documentando la técnica empleada entre las descritas anteriormente; por auditar la representación de los distintos colectivos y las métricas de equidad del modelo, tanto antes de su puesta en producción como de forma periódica una vez desplegado; y por garantizar, en todo caso, la intervención humana y el derecho de la ciudadanía a no ser objeto exclusivamente de una decisión automatizada cuando esa decisión les afecte de modo significativo. Un gobierno del dato construido sobre estas bases permite que la Administración Local aproveche el enorme potencial del Big Data y del aprendizaje automático para mejorar sus servicios, sin que ese aprovechamiento se convierta, ni por omisión ni por descuido técnico, en una fuente de vulneración de la privacidad o de discriminación de los colectivos más vulnerables a los que, paradójicamente, esos mismos servicios pretenden proteger.

Conclusión

El aprendizaje automático ofrece a la Administración Local una capacidad sin precedentes para extraer conocimiento útil de los datos que genera su actividad ordinaria, pero esa capacidad descansa por entero sobre la calidad y la idoneidad jurídica de los datos que alimentan cada modelo. Anonimizar de forma efectiva los datos ciudadanos resulta mucho más complejo de lo que sugiere la intuición inicial, porque la riqueza de variables que hace útil un conjunto de datos para entrenar un algoritmo es la misma riqueza que facilita la reidentificación de las personas a las que se refiere; y evitar los sesgos discriminatorios exige una vigilancia activa, antes, durante y después del entrenamiento, porque ningún algoritmo es neutral por definición, sino que refleja, amplificada y revestida de objetividad aparente, la calidad —y también los defectos— de los datos con los que ha aprendido. La Ley Orgánica 3/2018 y los principios de modelización conceptual y calidad del dato no deben verse, por ello, como obstáculos burocráticos al despliegue de la inteligencia artificial en el sector público, sino como el andamiaje imprescindible que permite que esa inteligencia artificial sirva efectivamente a la ciudadanía, y no en contra de ella.