Comparte

Tras el terremoto del GDPR, ¿cómo queda el Big Data?

por arantxa / 7 noviembre, 2018

Las empresas hace tiempo que se dieron cuenta de la enorme oportunidad que supone guardar toda la información que producen y analizarla para ser más competitivas. Eso sí, a la hora de hacerlo, se enfrentan al reto de procesar toda esta información útil respetando los datos personales que puedan almacenar.

No se trata de algo ético: es una cuestión legal. GDPR, la normativa europea de protección de datos, pretende garantizar este control de la información personal, dando más poder a los ciudadanos sobre qué se hace con los datos que se ceden. En un momento en que la economía está basado en datos, la polémica ha perseguido a este marco jurídico europeo. ¿Cómo está afectando el GDPR al Big Data?

LOPD, una vieja conocida

Aunque GDPR es de obligado cumplimiento desde el pasado mes de mayo, las leyes de protección de datos son viejas conocidas. En España, la Ley Española de Protección de Datos (LOPD) vio la luz hace más de 15 años, precisamente como sistema para garantizar que se hiciera un uso correcto de los datos. Sin embargo, desde el pasado 25 de mayo en toda Europa se han armonizado las distintas normativas que había al respecto, con el objetivo de que este texto se adecue a la aparición de nuevas tecnologías y herramientas. Es lo que se conoce como el Reglamento General de Protección de Datos de la UE (GDPR).

Aunque los principios clave del GDPR están en línea con la antigua LOPD, se han introducido actualizaciones importantes en lo que respecta a la forma en que los datos personales de los ciudadanos de la UE se recopilan y procesan, así como a las empresas que trabajan con esta información. Estos cambios regulatorios afectan a todas las compañías, independientemente de donde operen, siempre y cuando traten con datos de ciudadanos de la UE.

GDPR introduce algunos aspectos que resultan claves para su aplicación en el tratamiento de Big Data. Por ejemplo, las condiciones para el consentimiento se fortalecen. Es decir, que solo se pueden utilizar aquellos datos para los que se ha dado un consentimiento claro e inequívoco. Las empresas no podrán usar términos y condiciones ilegibles o incomprensibles. Ahora deben ser de fácil acceso y usar un lenguaje claro y sencillo, para garantizar que los usuarios entiendan lo que están aceptando.

Cómo afecta GDPR a la ciencia de los datos

Como vemos, Big Data y GDPR van unidos de la mano. Mientras que el primero se centra en recopilar, tratar y gestionar la información, el segundo nace con el objetivo de proteger los datos personales que el primero maneja. Al poner los derechos del individuo en el centro de todas las cosas, deberán cambiar tanto procesos empresariales y flujos de trabajo bien arraigados, como los hábitos y mentalidades asociados.

Pero, ¿cómo ha cambiado la ciencia de los datos y el Big Data con la entrada en vigor de GDPR el 25 de mayo? Según Jesús Yáñez Colomo, socio de Écija, quizá el mayor avance ha sido la homogeneización de la normativa en la UE y el hecho de que las empresas que no están situadas en la UE tienen la obligación de cumplir con esta normativa cuando se trata de personas que están en la UE.

GDPR impacta la ciencia de datos en varias áreas diferentes. En primer lugar, existen límites impuestos a la manera en que las empresas perfilan a los clientes y procesan los datos personales. Dependiendo de cómo lo defina, esa es una gran parte del trabajo que debe realizar un científico de datos. Bajo GDPR, se determina que el perfil es cualquier tipo de procesamiento automático de datos personales que analiza o predice ciertos aspectos del comportamiento, la situación socioeconómica, los movimientos, las preferencias, la salud, etcétera, de un individuo.

Si se produce un perfil, una organización debe notificar a la persona involucrada, enumerar posibles consecuencias y luego dar la oportunidad de optar por no participar. Esto se aplica a los eventos en los que existe un objetivo comercial legítimo para el perfil (que no infringe los derechos de un individuo), como cuando un procesador de tarjeta de crédito puede usar datos personales para determinar el límite de crédito de una persona.

”Cuando hablamos de datos, hablamos de sistemas complejos que recopilan una gran cantidad de fuentes de información. Con el nuevo GDPR está forzando a entidades que se relacionan con los principios en materia de protección de datos (principalmente principios de atención e información), algo que antes era totalmente impensable”, explica Yáñez.

En muchas organizaciones se comienza a ver la figura de CDO (Chief Data Officer), figura que vela por la veracidad y seguridad de los datos en una compañía, lo que indica la importancia que está tomando el tema de los datos

Cuando se está llevando a cabo la creación de perfiles, las empresas deben evitar que los factores discriminatorios (como la raza, la política o las creencias religiosas) tengan un efecto. El sesgo puede ser un gran problema en muchos algoritmos de aprendizaje automático. Hay muchas razones subyacentes detrás de esto, incluido un algoritmo de aprendizaje automático que se construye con pequeños sesgos no reconocidos por los equipos (o científicos de datos) detrás de él. Las repercusiones de estos sesgos no hacen sino aumentar a través del ciclo de retroalimentación del propio algoritmo. Los científicos de datos, por lo tanto, tienen una gran tarea frente a ellos, ya que cualquier sesgo percibido dentro de los algoritmos es probable que viole GDPR.

El auge del CDO

GDPR ya ha impactado en la ciencia de datos y lo va a seguir haciendo. El grado en que afectará a los analistas dependerá en gran medida del tipo de trabajo que están haciendo, y para qué compañía o departamento. Aquellos que trabajan en marketing posiblemente tendrán la tarea más difícil, gracias a las restricciones en torno al consentimiento.

Sin embargo, GDPR toca casi todos los aspectos de las operaciones de una empresa. Hay muchos detalles diferentes de la reglamentación, por lo que vale la pena consultar a través de una guía general de GDPR para asegurarse de que todo el negocio tiene sus bases cubiertas.

Los científicos de datos tienen un gran papel que desempeñar en la preparación de negocios para GDPR. Todos los datos almacenados deberán evaluarse y recopilar el consentimiento necesario. El almacenamiento de datos necesitará auditoría. Los procedimientos de cumplimiento probablemente precisarán una revisión, y las operaciones de procesamiento de datos deberán ser recogidas. Los modelos que usen datos personales requerirán que se los destaque, y su funcionamiento interno se explicará a los consumidores en términos sencillos.

Seguridad y tiempo real, ¿binomio imposible?

Aunque una mayor concienciación sobre los datos es una buena noticia, los retos son importantes. Uno de los puntos en los que la legislación GDPR afecta más es en la recopilación de datos, ya que hay una mayor dependencia de análisis en tiempo real.

Así, tras ser recolectados, los datos se analizan inmediatamente. No obstante, GDPR establece que, una vez que se han utilizado para un fin concreto, ya no deben guardarse por los siglos de los siglos. Por eso, se está trabajando para hacer que los análisis en tiempo real sean más rápidos y efectivos que los que se llevan a cabo tiempo después de su recogida.

Las redes sociales, una avenida que muchas empresas utilizan para aumentar la lealtad de los clientes y su participación, también se verán afectadas. Nada sorprendente si se tiene en cuenta la cantidad de información personal que termina residiendo en estas cuentas. Las empresas que quieran hacer negocios con clientes de la UE tendrán que ser más cuidadosas con lo que piden y ser más directas con respecto a cuánto tiempo conservarán esos datos y qué harán con ellos.

Además, todo ese Big Data que se recolecta tendrá que almacenarse de forma segura, y deberá ser borrado cuando los clientes deseen eliminarlo. O pasarselo a otro proveedor, si así lo demandan. Independientemente de su tamaño, las empresas tienen que aceptar la idea de que los clientes obtendrán un mayor control sobre sus propios datos personales.

La anonimización de los datos sensibles es un punto clave. Hay que enfrentarse a problemas de volumen (el consentimiento de todos los clientes), tecnológicos (procesar y ordenar todo de forma correcta) y de negocio (evaluar quién y cómo se explotan los datos)

Inés Huertas, CEO de Datatons, explica que hay muchas puntos clave dentro de la securización y cumplimiento de GDPR. “Pasa por el consentimiento explícito y no por defecto de los usuarios para la utilización de sus datos (de ahí parte de la oleada de correos que todos hemos recibido por empresas pidiendo nuestro consentimiento para tratar lo datos) hasta la evaluación de los flujos de datos: ¿de donde vienen los datos?, ¿quién es el dueño de la información?, ¿Qué datos podemos mostrar?”.

Otro de los puntos clave es la anonimización de los datos sensibles, independientemente del consentimiento -sobre todo si hay empresas terceras que utilizan dichos datos-. “En conjunto nos enfrentamos a problemas de volumen (tener que pedir a los clientes su consentimiento), problemas tecnológicos (tener la capacidad para procesar y ordenar todos estos datos de forma correcta) y de negocio (evaluar quién y cómo explota estos datos de una forma correcta)“, por lo que, dependiendo del grado de digitalización de las empresas, “esto puede suponer un fuerte impacto”, comenta Huertas.

Separar el grano de la paja

Dado que GDPR protege y afecta a los datos personales, ¿qué pasa con aquellos que no lo son? Los conjuntos de Big Data a menudo incluyen datos personales y, en muchos casos, no es posible separar los que lo son de los que no. El objetivo de Big Data es descubrir las relaciones dentro y entre la información, a través del análisis y el procesamiento. Dada la precisión y confiabilidad de cualquier conjunto de datos particular que puede no ser exacto, sino direccionalmente representativo, el punto de partida de esta disciplina es contrario a un principio fundamental del GDPR: que la exactitud de los datos personales de un sujeto en posesión de una organización debe mantenerse y protegerse.

Además, el artículo 22 de la GDPR prohíbe el procesamiento automático, incluida la elaboración de perfiles, cuando dicho procesamiento tenga un efecto legal en un interesado o, de manera similar, afecte significativamente al interesado. Algunos de los riesgos de privacidad particularmente pronunciados en el contexto de los perfiles de Big Data incluyen:

Procesamiento de datos personales fuera del propósito para el cual fue recolectado
Uso de información incorrecta y / o desactualizada
Discriminación o parcialidad contra ciertos individuos o grupos como resultado de la aplicación de ciertos algoritmos de generación de perfiles
Procesamiento de datos personales en exceso de lo que se necesita para procesarlo

Debido a que el procesamiento automático conlleva riesgos tan altos para la privacidad, el GDPR, en principio, lo prohíbe, excepto cuando se realiza en base al consentimiento (explícito); o es necesario celebrar o llevar a cabo un contrato, siempre que los interesados puedan impugnar una decisión automática y obtener la conformidad de las personas implicadas.

Además, GDPR establece que los datos personales confidenciales solo pueden procesarse automáticamente en base al consentimiento explícito, independientemente del efecto de dicho procesamiento, y que los interesados deben ser informados del uso del procesamiento automático y de la lógica utilizada, así como de las posibles consecuencias.

Dado que las organizaciones ya han acumulado grandes cantidades de datos, y GDPR no se aplica solo a conjuntos de datos creados en el futuro, sino también a aquellos que ya existen, ¿cómo se puede obtener el consentimiento explícito requerido para usos específicos de un conjunto de datos que ya existe (y que ya está en uso)? Es imperativo que las empresas revisen su uso actual de perfiles y procesos y prácticas de procesamiento automatizado.

La privacidad en tiempos del Big Data

Cuando hablamos de Big Data y de la privacidad que introduce el GDPR, Jesús Yáñez diferencia dos grandes bloques. En cuanto al Big Data interno (datos de los clientes o trabajadores), este experto considera que apenas puede haber problemas (“raramente se centran en cada persona en particular”). En cambio, puede ayudarnos a centralizar las grandes cifras y lograr estadísticas que permitan predecir cómo funciona el negocio.

Por su parte, el Big Data predictivo y de publicidad programática conforman el segundo bloque. “Aquí está el gran problema”, advierte. Si además de los datos internos que tiene la empresa hay fuentes externas, aquí puede estar el reto, ya que “facilitan datos personales de dudosa procedencia en muchas ocasiones (a través de cookies u otros sistemas que identifiquen a través de la IP o de la ID de los dispositivos”.

Además, entiende que no está del todo claro cuándo un dato es personal o corporativo en lo que a su tratamiento se refiere. “El comercio electrónico se ha convertido en un mapa tremendamente complejo, especialmente cuando nos referimos a actividades de marketing, donde se desdibujan las responsabilidades”, explica.

En cualquier caso, este experto señala que lo que hay que conseguir para que las empresas sean más respetuosas “es que el ciudadano sea consciente del tratamiento diario que se realiza de sus datos cuando navega en internet de forma masiva. Hasta que eso no se consiga, y las autoridades públicas tienen mucha responsabilidad en este aspecto, los ciudadanos ni siquiera son conscientes de que sus derechos están siendo arrollados”

Claramente, existen algunos desafíos específicos para conciliar los principios de protección de datos establecidos en GDPR con las características del análisis de Big Data. Sin embargo, estos no son insuperables, ni incongruentes con los objetivos del nuevo reglamento, como descubrirán las grandes empresas.

big data